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Potocol-Forest-Vamel 


作者 : Vamei 
来 源 : 协议 森林 
代码 仓库 : Protocol-Forest-Vamei 
欢迎 转载 ， 也 请 保留 这 段 声 明 。 谢 谢 ! 
"The Forest of The Protocol" : a concise introduction to network protocols 


互联 网 是 为 了 通信 ， 通 信 又 依赖 于 协议 。 我 们 交 恋 时， 要 符合 语法 和 用 语 规范 。 机 器 之 间 的 
通话 也 要 符合 协议 。 否 则 ， 鸡 同 鸭 讲 ， 无 法 相互 理解 。* 协 议 森 林 " 是 我 的 一 系列 关于 网 络 协议 
的 文章 ， 总 结 了 多 个 网 络 协议 。 


网 络 协 议 属 于 技术 ， 但 深 受 政策 与 历史 的 影响 。Ethernet, IP, UDP, TCP, HTTP, DNS... 这 些 协 
议 形成 茂密 的 树林 ， 盘 根 错 节 。 协 议 之 间 有 时 合作 ， 有 时 竞争 ， 有 时 弱肉强食 的 取代 。 了 解 
网 络 分 层 ， 是 理解 这 个 森林 的 第 一 步 。 而 森林 的 心脏 ， 是 存在 了 三 十 多 年 的 TCP/IP 套 装 。 在 
变化 迅捷 的 IT 领域 ，TCP/IP 历 久 弥 新 。 这 一 点 也 是 可 以 理解 的 。 毕 竞 ， 单 机 技术 可 以 很 快 更 
替 ， 网 络 协议 的 更 换 要 难 很 多 。 它 要 求 整个 网 络 的 所 有 设备 的 配合 。 网 络 协议 能 持久 ， 网 络 
协议 的 知识 也 不 会 过 时 。 


网 络 协议 的 发 展 伴随 着 有 趣 的 故事 。 协 议 都 产生 于 特定 的 历史 环境 。 今 天 看 来 ， 一 些 网 络 协 
议 显 得 策 拙 ， 但 在 当时 的 条 件 下 ， 则 是 聪明 的 解决 方案 。 所 以 ， 在 了 解 网 络 协议 的 时 候 ， 需 
要 了 解 该 协议 的 诞生 过 程 和 设计 目的 。 


网 络 协议 可 以 参考 许多 经 典 书籍 。" 协 议 森 林 " 忽 略 了 许多 细节 ， 并 采用 比较 直 白 的 表达 方式 。 
读 过 这 一 系列 文章 后 ， 你 可 以 找到 参考 书籍 ， 继 续 深入 学 习 。 
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互联 网 的 目的 是 为 了 实现 通信 ， 而 通信 的 基础 是 有 一 套 行 之 有 效 的 网 络 协议 。 正 如 我 们 在 交 
谈 的 时 候 需要 符合 一 定 的 语法 和 用 语 规范 一 样 ， 机 器 之 间 的 通话 也 必须 符合 协议 。 和 否则 ， 每 
一 台 机 器 自 言 自 语 ， 永 远 也 无 法 相互 理解 。" 协 议 森 林 " 是 一 系列 关于 网 络 协议 的 文章 。 硕 望 通 
过 这 些 文 章 ， 能 对 错综复杂 的 协议 森林 进行 一 个 简单 的 总 结 。 


网 络 协议 是 技术 ， 但 又 关乎 设计 与 历史 。Ethernet, IP UDP TCP HTTP, DNS... 这 些 协议 像 是 
一 片 茂 密 的 树林 ， 盘 根 错 节 。 协 议 之 间 相 互 关 联 。 协 议 与 协议 有 时 合作 ， 有 时 竞争 ， 有 时 是 
弱肉强食 的 替代 。 网 络 协议 的 发 展 总 是 伴随 着 很 有 趣 的 历史 故事 ， 网 络 协议 的 产生 都 有 其 历 
史 环 境 。 一 些 网 络 协议 可 能 看 起 来 很 策 拙 ， 但 放 在 当时 ， 是 聪明 的 解决 方案 。 所 以 ， 在 了 解 
网 络 协议 的 时 候 ， 需 要 了 解 该 协议 的 诞生 过 程 和 设计 目的 。 


了 解 网 络 分 层 ， 是 理解 这 个 森林 的 第 一 步 。 而 森林 的 心脏 ， 是 存在 了 三 十 多 年 的 TCP/IP 套 装 
协议 。 在 变化 迅捷 的 IT 领域 ，TCP/IP 坚 如 盘 石 的 地 位 可 以 算是 一 个 奇迹 。 这 一 点 也 是 可 以 理 
解 的 。 许 多 单机 技术 可 以 很 快 更 新 ， 比 如 Java 和 C++ 兴起 ， 而 Pascal 语 言 、Fortran 语 言 快速 
没落 。 然 而 ， 网 络 协议 的 更 换 并 不 简单 ， 这 要 求 整个 网 络 的 所 有 设备 的 配合 。 网 络 协议 是 不 
老 传 说 ， 它 的 相关 技术 ， 就 非常 值得 拥有 。 


网 络 协议 可 以 参考 许多 经 典 书籍 。" 协 议 森 林 " 忽 略 了 许多 细节 ， 并 采用 比较 直 白 的 表达 方式 。 


邮差 与 邮局 


言 号 的 传输 总 要 符合 一 定 的 协议 (protocol) 。 比 如 说 长 城 上 放 狼 烟 ， 看 到 狼烟 的 军队 开始 警 
备 。 这 是 因为 人 们 已 经 预先 约定 好 ， 狼 烟 这 个 物理 信号 代表 了 “敌人 入 侵 "”。 这 样 一 个 “狼烟 = 敌 
人 入 侵 " 就 是 一 个 简单 的 协议 。 协 议 可 以 更 复杂 ， 上 比如 摩尔 斯 码 (Morse code) ， 使 用 短信 号 和 
长 信号 的 组 合 ， 来 代表 不 同 的 英文 字母 。 比 如 SOS(+++---+++, + 代表 短信 号 ，- 代 表 长 信号 )。 
这 样 "+++ 相当 于 S, --- 相当 于 O" 就 是 摩尔 斯 码 规定 的 协议 。 然 而 更 进 一 层 ， 人 们 会 知道 
SOS 是 求助 信息 ， 原 因 是 我 们 有 “SOS= 求 救 "这 个 协议 存在 在 脑海 里 。 所 以 "+++---+++=SOS= 
求救 "是 一 个 由 两 个 协议 组 成 的 分 层 通信 系统 。 

& 电报 或 者 烽火 传讯 

和 人 与 人 之 间 的 通信 和 类似， 计算 机 之 间 的 通信 也 要 遵循 协议 。 由 于 计算 机 网 络 比较 复杂 ， 左 
一 计算 机 采用 的 分 层 的 数 个 协议 ， 来 实现 通信 。 


a 


物理 层 (physical layer) 


所 谓 的 物理 层 ， 是 指 光 纤 、 电 绕 或 者 电磁 波 等 真实 存在 的 物理 媒介 。 这 些 媒 介 可 以 传送 物理 
信号 ， 比 如 亮度 、 电 压 或 者 振幅 。 对 于 数字 应 用 来 说 ， 我 们 只 需要 两 种 物理 信号 来 分 别 表示 0 
和 1， 比 如 用 高 电压 表示 1， 低 电压 表示 0， 就 构成 了 简单 的 物理 层 协议 。 针 对 某 种 媒介 ， 电 脑 
可 以 有 相应 的 接口 ， 用 来 接收 物理 信号 ， 并 解读 成 为 /1 序列 。 


连接 层 


在 连接 层 (link layer) ， 信息 以 帧 (frame) 为 单位 传输 3 信息 是 一 段 有 序 的 0/1 序 列 ， 而 帧 ， 
是 这 个 序列 中 符合 特定 格式 的 一 人 小段 。 连 接 层 协议 的 功能 就 是 识别 0/1 序 列 中 所 包含 的 帧 。 在 
帧 中 ， 有 收 信 地 址 (source，SRC) 和 送信 地 址 (Destination，DSsT) ， 还 有 能 够 探测 错误 的 校 验 
序列 (Frame Check Sequence)。 当 然 ， 帧 中 最 重要 的 最 重要 是 所 要 传输 的 数据 (payload) 。 这 
些 数据 往往 符合 更 高 层 协议 ， 供 网 络 的 上 层 使 用 。 与 数据 相配 套 ， 帧 中 也 有 数据 的 类 型 (Type) 
言 息 。 连 接 层 协议 不 关心 数据 中 到 底 包 含 什 么 。 帧 就 像 是 一 个 信封 ， 把 数据 包 庄 起 来 。 

以 大 网 (Ethernet) 和 WiFi 是 现在 最 常见 的 连接 层 协 议 。 通 过 连接 层 协议 ， 我 们 可 以 建立 局 域 
的 以 太 网 或 者 WiFi 局 域 网 ， 并 让 同一 局 域 网 中 的 两 台 计 算 机 通信 。 连 接 层 就 像 是 一 个 社区 的 
邮差 ， 他 认识 社区 中 的 每 一 户 人 。 社 区 中 的 每 个 人 都 可 以 将 一 封 信 ( 帧 ) 交 给 他 ， 让 他 送 给 同一 
社区 的 另 一 户 人 家 。 


& 社区 小 邮差 ， 只 进行 社区 内 部 送 递 


网 络 层 (network layer) 


连接 层 让 社区 内 部 可 以 通信 ， 但 不 同 的 社区 之 间 该 如 何 通信 呢 ? 比如 说 ， 让 WiFi 上 网 络 上 的 
一 台 计 算 机 和 以 太 网 上 的 另 一 台 计 算 机 通信 。 我 们 需要 一 个 “中 间 人 ”。 这个“ 中间人 ?必须 有 以 
下 功能 


从 物理 层 上 在 两 个 网 络 的 接收 和 发 送 0/1 序 列 ， 
同时 理解 两 种 网 络 的 帧 格式 。 


1， 能 
2. 能 
路 由 器 (router) 就 是 为 此 而 产生 的 “中 间 人 ”。 一 个 路 由 器 有 多 个 网 卡 (NIC，, Network Interface 
controller) 。 每 个 网 卡 可 以 接 入 到 一 个 网 络 ， 并 理解 相应 的 连接 层 协 议 。 在 帧 经 过 路 由 到 达 
另 一 个 网 络 的 时 候 ， 路 由 会 读 取 帧 的 信息 ， 并 改写 以 发 送 到 另 一 个 网 络 。 所 以 路 由 器 就 像 是 
在 两 个 社区 都 有 分 支 的 邮局 。 一 个 社区 的 邮差 将 信 送 到 本 社区 的 邮局 分 支 ， 而 邮局 会 通过 自 
己 在 另 一 个 地 区 的 分 支 将 信和 转交 给 另 一 个 社区 的 邮差 手中 ， 并 由 另 一 个 社区 的 邮差 最 终 送 到 
目的 地 。 


通过 路 由 连接 的 WiFi 和 以 大 网 
整个 通信 过 程 如 下 : 
WiFi 上 的 计算 机 1 -> 路 由 WiFi 接 口 -> 路 由 以 太 网 接口 -> 以 太 网 上 的 计算 机 2 


在 连接 层 ， 一 个 帧 中 只 能 记录 起 点 SRC 和 终点 DST 两 个 地 址 。 而 上 面 的 过 程 需要 经 过 四 个 地 
址 (计算 机 1，WiFi 接 口 ， 以 太 网 接口 ， 计 算 机 2)。 显 然 ， 仅 仅 靠 连接 层 协议 无 法 满足 我 们 的 需 
要 。 由 于 连接 层 协 议 开 发 在 先 ， 我 们 无 法 改动 连接 层 协 议 ， 只 能 在 连接 层 的 数 

据 (payload) ， 也 就 是 信纸 内 部 下 功夫 了 。|IP 协 议 应 运 而 生 。 


计算 机 1， 路 由 器 和 计算 机 2 都 要 懂得 IP 协 议 。 当 计算 机 1 写 信 的 时 候 ， 会 在 信纸 的 开头 写 上 这 
封 信 的 出 发 地 址 和 最 终 到 达 地 址 (注意 ， 这 里 是 信纸 ， 而 不 是 在 信封 上 )， 信 封 上 号 要 送 往 的 邮 
局 。WiFi 网 的 邮差 将 信 送 往 邮 局 。 在 邮局 ， 信 被 打开 ， 邮 局 工作 人 员 看 到 最 终 地 址 ， 于 是 将 
信和 包装 在 一 个 新 的 信封 中 ， 写 上 出 发 地 为 邮局 ， 到 达 地 为 计算 机 2， 并 交 给 以 大 网 的 邮差 ， 由 
以 大 网 的 邮差 送 往 计 算 机 2 。 


(IP 协 议 还 要 求 写 如 诸如 校 验 等 信息 ， 交 通 状况 等 信息 ， 以 保护 通信 的 稳定 性 。) 
& 邮局 柜台 交接 


在 连接 层 ， 邮 差 只 负责 在 本 社区 送信 ， 所 以 信封 上 的 地 址 总 是 “第 一 条 街 第 三 座 房子 ， 或 者 
说 “中 心 十 字 路 口 拐角 的 小 房子 ”这样 一 些 本 地 人 才 了 解 的 地 址 描述 ， 这 给 邮局 的 工作 带 来 不 
便 。 所 以 邮局 要 求 ， 信 纸 上 写 的 地 址 必须 是 一 个 符合 官方 规定 的 “邮编 '， 也 就 是 IP 地 址 。 这 个 
地 址 为 世界 上 的 每 一 个 房子 编号 (邮编 )。 当 信件 送 到 邮局 的 时 候 ， 邮 局 根据 邮编 ， 就 能 查 到 对 
应 的 地 址 描述 ， 从 而 能 顺利 改写 信封 上 的 信息 。 


每 个 邮局 一 般 连 接 多 个 社区 ， 而 一 个 社区 也 可 以 有 多 个 邮局 ， 分 别 通 往 不 同 的 社区 。 有 时 候 
一 封 信 要 通过 多 个 邮局 转交 2 才能 最 终 到 达 目的 地 ， 这 个 过 程 叫做 路 由 (routing) ° 邮局 将 
分 离 的 局 域 网 络 连接 成 了 互联 ， 并 最 终 构成 了 复 盖 全 球 的 互联 网 。 


传输 层 (transport layer) 


上 面 的 三 层 协 议 让 不 同 的 计算 机 之 间 可 以 通信 。 os 个 进程 ， 每 个 进 
程 都 可 能 有 自己 的 通信 需求 。 比 如 我 们 打开 firefox 浏 览 ， 与 此 同时 ， 又 用 outlook 来 接收 
邮件 。 一 个 计算 机 里 的 多 个 进程 就 像 是 住 在 一 所 房 ss ， 


我 们 之 前 的 通信 协议 ， 足 以 让 我 们 把 信息 从 一 所 房子 发 送 到 另 一 所 方法 。 但 如 何 将 信 精 确 的 
送 到 某 个 人 手 里 呢 ? 遵照 之 前 相同 的 逻辑 ， 我 们 需要 在 信 上 增加 新 的 信息 ， 比 如 收 信 人 的 姓 
re Oe tc ln Ohh 


会 配备 一 个 管理 员 ( 传 输 层 协 议 )。 管 理 员 从 邮差 手中 接 过 信 ， 会 根据 “ 收 信 人 ”， 将 信 送 给 房子 
中 的 某 个 人 。 


& 大 楼 管理 员 分 发 信件 


传输 层 协议 ， 比 如 TCP 和 UDP， 使 用 端口 号 (port number) 来 识别 收 信人 ( 某 个 进程 )。 在 写 信 的 
时 候 ， 我 们 写 上 目的 地 的 端口 。 当 信 到 达 目 的 地 的 管理 员 手中 ， 他 会 根据 传输 层 协议 ， 识 别 
端口 号 ， 将 信 送 给 不 同 的 人 。 


TCP 和 UDP 协议 是 两 种 不 同 的 传输 层 协 议 。UDP 协 议 类 似 于 我 们 的 信件 交流 过 程 。TCP 协 议 
则 好 像 两 个 情人 间 的 频繁 通信 。 一 个 小 情人 要 表达 的 感情 太 多 ， 以 致 于 连续 写 了 好 几 封 信 。 
而 另 一 方 必须 将 这 些 信 按 顺序 排列 起 来 ， 才 能 看 明白 全 部 的 意思 。TCP 协 议 还 有 控制 网 络 交 
通 等 功能 。 


应 用 层 (application layer) 


通过 上 面 的 几 层 协议 ， 我 们 已 经 可 以 在 任意 两 个 人 (进程 ) 之 间 进 行 通信 。 但 人 们 显然 还 不 满 
足 。 每 个 人 从 事 的 是 不 同 的 行业 。 有 的 人 是 律师 ， 有 的 人 外 交 官 。 律 师 之 间 的 通信 ， 要 严格 
的 律师 术语 ， 以 免 产 生 纠 纷 。 外 交 官 之 间 的 通信 ， 必 须 符合 一 定 的 外 交 格 式 ， 以 免 发 生 外 交 
误会 。 再 比如 间谍 通过 暗号 来 传递 加 密 信息 。 应 用 层 协议 是 对 信件 内 容 进一步 的 用 语 规范 。 
应 用 层 的 协议 包括 用 于 Web 浏 览 的 HTTP 协 议 ， 用 于 传输 文件 的 FTP 协 议 ， 用 于 Email 的 IMAP 


大 后 大 后 


等 等 。 


& 外 交通 信 


馆 结 


名 


八 


总 过 网 络 分 层 ， 我 们 从 原始 的 0/1 序 列 抽象 出 


本 地 地 址 (邮差 )、 邮 编 (邮局 )、 收 信人 (管理 员 )、 收 信人 行业 (用 语 规范 ) 


这 些 概念 。 这 些 概念 最 终 允 许 互 联网 上 的 分 布 于 两 台 计 和 草 机 的 两 个 进程 相互 通信 。 写 信人 必 
须 按 照 各 层 的 协议 ， 封 装 (encapsulation) 好 整个 信封 ; 而 收 信人 则 按照 相反 的 顺序 ， 来 拆 开 
这 个 信封 。 整 个 过 程 是 可 读 信息 -> 二 进 制 -> 可 读 信息 。 


计 昔 机 只 能 理解 和 传输 Q/1 序 列 ， 而 计算 机 的 用 户 则 总 是 输入 和 输出 可 读 信息 。 网 络 协议 保证 
了 可 读 信 息 在 整个 转换 和 传输 过 程 中 的 完整 性 。 计 算 机 协议 本 身 还 有 更 多 的 细节 需要 深入 。 
只 


小 喇叭 开始 广播 (以 太 网 与 WiFi 协 议 ) 


小 喇叭 开始 广播 啦 ”， 如 果 你 知道 这 个 ， 你 一 定 是 老 一 莫 的 人 。" 小 喇叭 "是 五 十 年 代 到 和 八 十 年 
代 的 儿童 广播 节目 。 在 节目 一 开始 ， 都 会 有 一 段 这 样 的 播音 : "小 朋友 ， 人 小 喇叭 开始 广播 了 1” 
听 到 这 里 ， 收 音 机 前 的 小 朋友 就 兴奋 起 来 ， 准 备 好 听 节 目 了 : 这 一 期 的 内 容 是 以 太 
网 (Ethernet) 协议 与 WiFi。 


我 们 在 邮差 与 邮局 中 说 到 ， 以 太 网 和 WiFi 是 连接 层 的 两 种 协议 。 在 连接 层 ， 信 息 的 传输 单位 
称 为 帧 (frame) 。 数 据 (payload) 是 包 衰 在 帧 中 的 一 部 分 。 帧 上 注 明 收 信 地 址 和 送信 地 址 。 
连接 层 实现 了 "本 地 社区 ”的 通信 


尺 太 网 


以 太 网 的 帧 格式 


帧 本 身 是 一 段 有 限 的 0/1 序 列 。 它 可 以 分 为 头 部 、 数 据 (Payload) 和 尾部 三 部 分 : Preamble 
SFD DST SRC Type Payload (pata) Pad FCS Extension 帧 按照 上 面 的 顺序 从 头 到 尾 依 次 
被 发 送 /接收 。 我 们 下 面 进一步 解释 各 个 区 域 。 


头 部 


帧 的 最 初 7 个 字 节 被 称 为 序言 (preamble) ° 它 的 每 个 字 节 都 是 0xAA (这 里 是 十 六 进 制 ， 也 就 是 二 进 制 
的 10101010) 。 通 常 ， 我 们 都 会 预定 好 以 一 定 的 频率 发 送 0/1 序 列 (比如 每 秒 19bit) 。 如 果 接 收 设 
备 以 其 他 频率 接收 (比如 每 秒 5bit) ， 那 么 就 会 错漏 掉 应 该 接收 的 0/1 人 信息。 但 是 ， 由 于 网 卡 的 

不 同 ， 发 送 方 和 接收 方 即使 预订 的 频率 相同 ， 两 者 也 可 能 由 于 物理 原因 发 生 人 和 偏差 。 这 就 好 像 

两 个 人 约 好 的 10 点 见 ， 结 果 一 个 人 表 快 ， 一 个 人 表 慢 一 样 。 序 言 是 为 了 让 接收 设备 调整 接收 

频率 ， 以 便 与 发 送 设 备 的 频率 一 致 ， 这 个 过 程 就 叫做 时 钟 复 原 (recover the clock) 。 


就 像 在 收听 广播 之 前 ， 调 整 转 钮 ， 直 到 声音 清晰 。 网 卡 会 在 接收 序言 的 过 程 中 不 断 微调 
自己 的 接收 频率 ， 直 到 自己 “ 听 到 ”是 ...1010... 


时 钟 调整 好 之 后 ， 我 们 等 待 帧 的 起 始 信号 (SFD，start frame delimiter) 。SFD 是 固定 的 值 
0xAB。 这 个 0xAB 就 好 像 “ 小 喇叭 开始 广播 啦 " 一 样 ， 提 醒 我 们 好 节目 就 要 上 演 了 。 


Preamble 和 SFD 


紧 随 SFD 之 后 的 是 6 字 节 的 目的 地 (DST，destination) 和 6 字 节 的 发 出 地 (SRC，source) 。 这 
就 是 我 们 在 邮差 和 邮局 中 的 介绍 一 样 ， 为 信封 写 上 目的 地 和 发 出 地 。 要 注意 ， 这 里 写 在 信封 
上 的 是 对 地 址 的 “本 地 描述 *， 也 就 是 MAC 地 址 。MAC 地 址 是 物理 设备 自 带 的 序号 ， 只 能 在 同 


一 个 以 大 网 中 被 识别 。 也 就 是 说 ， 邮差 只 熟悉 自己 的 社区 。 


头 部 的 最 后 一 个 区 域 是 Type， 用 以 说 明 数 据 部 分 的 类 型 。 (比如 0x6890 为 TPv4，0Xx0806 为 ARP) 


数据 


数据 一 般 包 含有 符合 更 高 层 协 议 的 数据 ， 比 如 IP 包 。 连 接 层 协 议 本 身 并 不 在 乎 数据 是 什么 ， 
它 只 负责 传输 。 注 意 ， 数 据 尾部 可 能 填充 有 一 串 0 (PAD 区 域 ) 。 击 充 0 的 原因 是 ， 一 个 帧 需要 超 
过 一 定 的 最 小 长 度 。 


尾部 


跟随 在 数据 之 后 的 是 校 验 序 列 (FCS，Frame Check Sequence) ° 校 验 序列 是 为 了 检验 数据 的 传 
输 是 否 发 生 错 误 。 在 物理 层 ， 我 们 通过 一 些 物理 信号 来 表示 0/1 序 列 (比如 高 压 /低压 ， 高 频率 /低频 率 
等 ) ， 但 这 些 物理 信号 可 能 在 传输 过 程 中 受到 影响 ， 以 致 于 发 生 错 误 。 如 何 来 发 现 我 们 的 数据 
是 正确 的 呢 ? 


一 个 方法 是 将 数据 发 送 两 遍 ， 然 后 对 比 一 下 是 否 一 样 。 但 这 样 就 大 大 降低 了 网 络 的 效率 。 
FCS 采 用 了 循环 宛 余 校 验 (CRC，cyclic Redundancy check) 算法 。 这 就 好 像 是 一 家 饭店 的 老板 
雇佣 了 一 个 收银 员 ， 但 他 又 担心 收银 员 黑 钱 。 可 是 每 天 营业 额 很 大 ， 老 板 即使 坐 在 旁边 看 ， 
也 不 能 用 记 住 收 到 的 总 数 。 所 以 他 采取 了 一 个 聪明 的 办 法 : 只 记 住 收 到 钱 的 最 后 一 位 (比如 收 
到 19 元 ， 老 板 记 住 9) 。 当 有 新 的 进账 (比如 13， 尾 数 为 3) ， 他 就 将 新 的 尾数 和 上 昌 的 尾数 相 加 ， 再 记 
住 和 的 尾数 (也 就 是 ) 。 当 收银 员 交 给 老板 钱 的 时 候 ， 老 板 只 用 看 总 额 的 最 后 一 位 是 否 和 自己 
记 的 最 后 一 位 相同 ， 就 可 以 知道 收银 员 是 否 诚 实 了 。 如 果 说 我 们 的 数据 是 收银 的 总 额 的 话 ， 
我 们 的 FCS 就 是 老板 记录 的 尾数 。 如 果 两 者 不 相符 ， 我 们 就 知道 数据 在 传输 的 过 程 中 出 现 错 
误 ， 不 能 使 用 。 

有 FCS 在 盯 着 

上 面 的 比喻 实际 上 是 用 营业 总 额 不 断 的 除 以 10， 获 得 最 终 的 尾数 。CRC 和 工法 也 相 类 似 。n 位 
CRC 算 法 取 一 个 n bit 的 因子 ， 比 如 下 面 的 1011。 数据 序列 结尾 增加 n-1 个 0。 因 子 与 数据 序列 
的 不 断 进行 KOR 运算， 直到 得 到 n-1 位 的 余数 ， 也 就 是 100。 该 余数 各 位 取 反 (611) ， 然 后 存 
储 在 FCS 的 位 置 。 


- 数据 序列 末尾 增加 3 位 9 
A 

- XOR 结 果 

四 于 


11010011101100 000 
1011 
©01100011101100 000 
1011 
©00111011101100 000 
1011 
©00010111101100 000 
1011 
90000001101100 000 
1011 
O00000000110100 000 
1011 
900000000011000 000 
1011 
900000000001110 000 
1011 
900000000000101 000 
101 1 


ee 
1 1 


99990009009099 100 <--- 3 位 余数 
上 面 例子 用 的 是 4 位 CRC。 在 Ethernet 中 使 用 的 因子 为 32 位 的 ， 以 达到 更 好 的 检测 效果 。 


集线器 (Hub) vs. 交换 器 (Switch) 


以 太 网 使 用 集线器 或 者 交换 器 将 帧 从 发 出 地 传送 到 目的 地 。 一 台 集 线 器 或 交换 器 上 有 多 个 端 
口 ， 每 个 端口 都 可 以 连接 一 台 计 算 机 (或 其 他 设备 ) 。 


集线器 像 一 个 广播 电台 。 一 台电 脑 将 帧 发 送 到 集线器 ， 集 线 器 会 将 帧 转发 到 所 有 其 他 的 端 
口 。 每 台 计 算 机 检查 自己 的 MAC 地 址 是 不 是 符合 DST。 如 果 不 是 ， 则 保持 沉默 。 集 线 器 是 比 
较 早 期 的 以 太 网 设备 。 它 有 明显 的 缺陷 : 


。 任意 两 台电 脑 的 通信 在 同一 个 以 太 网 上 是 公开 的 。 所 有 连接 在 同一 个 集线器 上 的 设备 都 
能 收听 到 别人 在 传输 什么 ， 这 样 很 不 安全 。 可 以 通过 息 加 密 提 高 安全 性 。 

e 不 允许 多 路 同时 通信 。 如 果 两 台电 脑 同 时 向 集线器 发 信 ， 集 线 器 会 向 所 有 设备 发 出 “ 冲 
突 "信息 ， 提 醒 发 生 冲 突 。 可 以 在 设备 上 增加 冲 ， 法 (collision detection) :一 旦 
设备 发 现 有 冲突 ， 则 随机 等 竺 一 段 时 间 再 重新 改 送 。 


交换 器 克服 集线器 的 缺陷 。 交 换 器 记录 有 各 个 设备 的 MAC 地 址 。 当 帧 发 送 到 交换 器 时 ， 交 换 
器 会 检查 DST， 然 后 将 帧 只 发 送 到 对 应 端口 。 交 换 器 允许 多 路 同时 通信 。 由 于 交换 器 的 优越 
性， 交换 器 基本 上 取代 了 集线器 。 但 比较 老 的 以 太 网 还 有 可 能 在 使 用 集线器 。 


下 面 的 一 个 视频 来 自 CISCO， 更 加 形象 的 解释 了 这 两 种 设备 


http:/vyouku.com/v_show/id_XNDgwNTQ5OTI4.html 


WIFIi 


WiFi 的 工作 方式 与 集线器 连接 下 的 以 太 网 类 似 。 一 个 WiFi 设 备 会 向 所 有 的 WiFi 设 备 发 送 帧 ， 
其 它 的 WiFi 设 备 检查 自己 是 否 符合 DST。 由 于 WiFi 采 取 无 线 电 信号 ， 所 以 很 难 像 交换 器 一 样 
定向 发 送 ， 所 以 WiFi 的 安全 性 很 值得 关注 。WiFi 采 用 加 密 的 方法 来 实现 信息 的 安全 性 。 


早期 的 WEP 加 密 方 法 非常 脆弱 ， 建 议 使 用 WPA 或 者 WPA2 加 密 方 法 。 隐 藏 WiFi 设 备 ID 的 
方法 不 是 很 有 用 


冯 结 


Ed 


/ 


我 们 深入 了 连接 层 协 议 的 一 些 细节 。 连 接 层 是 物理 与 逻辑 的 接口 ， 它 的 设计 兼顾 了 物理 需 
相反 处 于 网 络 汉 加 的 底层 ， ， 有 许多 
基于 连接 层 的 攻击 手法 ， 这 需要 我 们 对 连接 层 的 工作 方式 有 一 定 的 了 解 ， 以 设计 出 更 好 的 网 
络 安全 策略 。 


IP 接 力 赛 IP, ARP, RIP 和 BGP 协 议 


网 络 层 (network layer) 是 实现 互联 网 最 重要 的 一 层 。 正 是 在 网 络 层 面 上 ， 各 个 局 域 网 根据 IP 
协议 相互 连接 ， 最 终 构 成 覆盖 全 球 的 Internet。 更 高 层 的 协议 ， 无 论 是 TCP 还 是 UDP， 必 须 通 
过 网 络 层 的 IP 数 据 包 (datagram) 来 传递 信息 。 操 作 系 统 也 会 提供 该 层面 的 套 接 字 (socket) ， 
从 而 允许 用 户 直接 操作 IP 包 


IP 数 据 包 简称 为 IP 包 。 它 是 符合 IP 协 议 的 0/1 序 列 。 信 息 包 含 在 这 一 序列 中 。|IP 包 分 为 头 
部 (header) 和 数据 (Data) 两 部 分 9 数据 部 分 是 要 传送 的 信 息 2 头 部 是 为 了 能 够 实现 传输 而 
附加 的 信息 。 


这 与 以 太 网 帧 的 头 部 功能 相 类 似 ,如 果 对 帧 感到 陌生 ， 可 参看 小 喇 只 一文。 


包 的 格式 


IP 协 议 可 以 分 为 IPv4 和 |IPv6 两 种 。IPv6 是 改进 版 本 ， 用 于 在 未 来 取代 |Pv4 协 议 。 我 们 可 以 暂 
时 忽略 两 者 的 区 别 ， 只 以 |Pv4 为 例 。 下 面 是 |Pv4 的 格式 


&img IPv4 包 我 们 按照 4 bytes 为 单位 ， 将 整个 序列 折 司 ， 以 便 更 好 的 显示 


与 帧 类 似 ，IP 包 的 头 部 也 有 多 个 区 域 。 我 们 将 注意 力 放 在 红色 的 发 出 地 (source address) 和 
目的 地 (destination address) 。 它 们 都 是 IP 地 址 。IPv4 的 地 址 为 4 bytes 的 长 度 (也 就 是 32 

位 ) 。 ee 每 个 数 的 范围 为 0-255, 比 如 192.0.0.1 就 是 
一 个 IP 地 址 。 卉 写 在 IP 包 头 部 的 是 该 地 址 的 二 进 制 形式 。 


IP 地 址 是 全 球 地 址 ， 它 可 以 识别 "社区 " (局域网) 和 "房子 " (主机 ) 。 这 是 通过 将 IP 地 址 分 类 实现 
的 。 


IP class From To Subnet Mask 
A 1.0.0.0 126.255.255.255 255.0.0.0 
128.0.0.0 191.255.255.255 255.255.0.0 
C 192.0.0.0 223.255.255.255 255.255.255.0 
每 个 |P 地 址 的 32 位 分 为 前 后 两 部 分 ， 第 一 部 分 用 来 区 分 局 域 网 ， 第 二 个 部 分 用 来 区 分 该 局 域 


网 的 主机 。 子 网 掩 码 (Subnet Mask) 告诉 我 们 这 两 部 分 的 分 界线 ， 比 如 255.0.0.0( 也 就 是 8 个 1 
和 24 个 0) 表 示 前 8 位 用 于 区 分 局 域 网 ， 后 24 位 用 于 区 分 主机 。 由 于 A、B、C 分 类 是 已 经 规定 好 
的 ， 所 以 当 一 个 IP 地 址 属于 B 类 范围 时 ， 我 们 就 知道 它 的 前 16 位 和 后 16 位 分 别 表示 局 域 网 和 主 
机 “。 


网 卡 与 路 由 器 


邮差 与 邮局 中 说 ，IP 地 址 是 分 配给 每 个 房子 (计算 机 ) 的 "邮编 "。 但 这 个 说 法 并 不 精确 。IP 地 址 
实际 上 识别 的 是 网 卡 (NIC, Network Interface Card) ° 网 卡 是 计算 机 的 一 个 硬件 ， 它 在 接收 到 
网 路 信息 之 后 ， 将 信息 交 给 计算 机 的 CPU 处 理 。 当 计算 机 需要 发 送信 息 的 时 ， 也 要 通过 网 卡 
发 送 。 一 台 计 算 机 可 以 有 不 只 一 个 网 卡 ， 比 如 笔记 本 就 有 一 个 以 太 网 卡 和 一 个 WiFi 网 卡 。 计 
算 机 在 接收 或 者 发 送信 息 的 时 候 ， 要 先决 定 想 要 通过 哪个 网 卡 。 


NIC 


路 由 器 (router) 实际 上 就 是 一 台 配 备 有 多 个 网 卡 的 专用 电脑 。 它 让 网 卡 接 入 到 不 同 的 网 络 

中 ， 这 样 ， 就 构成 在 邮差 与 邮局 中 所 说 的 邮局 。 上 比如 下 图 中 位 于 中 间 位 置 的 路 由 器 有 两 个 网 
卡 ， 地 址 分 别 为 199.165.145.17 和 199.165.146.3。 它们 分 别 接 入 到 两 个 网 络 : 199.165.145 和 
199.165.146。 





Internet 
| 


216.12.111.80 


Network 199.165.145 i ; Network 199.165.146 


E23 Router 
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IP 包 接力 


IP 包 的 传输 要 通过 路 由 器 的 接力 。 每 一 个 主机 和 路 由 中 都 存 有 一 个 路 由 表 (routing table) ° 
路 由 表 根 据 目的 地 的 IP 地 址 ， 规 定 了 等 待 发 送 的 IP 包 所 应 该 走 的 路 线 。 就 好 像 下 图 的 路 标 ， 如 
果 地 址 是 “东京 *， 那么 请 转 左 ; 如 果 地 址 是 “悉尼 ”， 那么 请 向 右 。 


A real world routing table 

比如 我 们 从 主机 145.17 生 成 发 送 到 146.21 的 IP 包 : 铺 开 信纸 ， 写 好 信 的 开头 。 剩 下 数据 部 分 
可 以 是 TCP 包 ， 可 以 是 UDP 包 ， 也 可 以 是 任意 乱 写 的 字 ， 我 们 暂时 不 关心 。 注 明 目 的 地 |P 地 
址 (199.165.146.21) 和 发 出 地 IP 地 址 (199.165.145.17) 。 主 机 145.17 随 后 参照 自己 的 路 由 
表 ， 看 到 路 由 表 中 的 记录 : 


145.17 routing table (Genmask 为 子 网 掩 码 ,lface 用 于 说 明 使 用 哪个 网 卡 接口 ) 


Destination Gateway Genmask lface 
199.165.145.0 0.0.0.0 255.255.255.0 eth0 
0.0.0.0 199.165.145.17 0.0.0.0 eth0 

这 里 有 两 行 记录 : 


1. 第 一 行 ， 如 果 IP 目 的 地 是 199.165.145.0 这 个 网 络 的 主机 ， 那 么 只 需要 自己 在 eth0 上 的 网 
卡 直接 传送 (“本 地 社区 ”: 直接 送 达 )， 不 需要 前 往 路 由 器 (Gateway 0.0.0.0 =“ 本 地 送 
信 ?”) 。 

2， 第 二 行 ， 所 有 不 符合 第 一 行 的 IP 目 的 地 ， 都 应 该 送 往 Gateway 199.165.145.17， 也 就 是 
中 间 路 由 器 接 入 在 eth0 的 网 卡 IP 地 址 (邮局 在 eth0 的 分 支 )。 


我 们 的 IP 包 目的 地 为 199.165.146.21， 不 符合 第 一 行 ， 所 以 按照 第 二 行 ， 发 送 到 中 间 的 路 由 
器 。 主 机 145.17 会 将 IP 包 放 入 帧 的 payload， 并 在 帧 的 头 部 写 上 199.165.145.17 对 应 的 MAC 地 
止 ， 这 样 ， 就 可 以 按照 小 喇叭 中 的 方法 在 局 域 网 中 传送 了 


中 间 的 路 由 器 在 收 到 |P 包 之 后 (实际 上 是 收 到 以 太 协 议 的 帧 ， 然 后 从 帧 中 的 payload 读 取 IP 
包 ) ， 提取 目的 地 IP 地 址 ， 然 后 对 照 自己 的 路 由 表 : 


Destination Gateway Genmask lface 
199.165.145.0 0.0.0.0 255.255.255.0 eth0 
199.165.146.0 0.0.0.0 255.255.255.0 eth1 
0.0.0.0 199.165.146.8 0.0.0.0 eth1 


从 前 两 行 我 们 看 到 ， 由 于 路 由 器 横 跨 eth0 和 eth1 两 个 网 络 ， 它 可 以 直接 通过 eth0 和 eth1 上 的 网 
卡 直接 传送 IP 包 


于 液 


巴 . 


行 表示 ， 如 果 是 前 面 两 行 之 外 的 IP 地址 ， 则 需要 通过 eth1， 送 往 199.165.146.8( 右 边 的 路 
=) 。 


我 们 的 目的 地 符合 第 二 行 ， 所 以 将 IP 放 入 一 个 新 的 帧 中 ， 在 帧 的 头 部 写 上 199.165.146.21 的 
MAC 地 址 ， 直 接 发 往 主 机 146.21。 


在 Linux 下 ， 可 以 使 用 route -n 或 ip route 来 查看 路 由 表 
route 命令 基本 上 是 所 有 Linux 系 统 自 带 的 命 过 现在 有 更 强悍 的 网 络 命令 集 iproute2: 


lproute2 is a collection of utilities for controlling TCP / IP networking and traffic control in 
Linux. 


它 完 全 可 以 替代 ifconfig ，route 等 命令 ， 比 如 查看 ip address 和 route table: 


$ ip addr show enp0s5 
2: enp9s5: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo fast state UP qlen 1000 
link/ether 00:1c:42:bd:ea:3d brd ff:ff:ff:ff:ff:ff 
inet 10.211.55.6/24 brd 10.211.55.255 scope global enpos5 
inet6 fdb2:2c26:f4e4:0:12c:42ff:fedb:ae3d/64 scope global dynamic 
valid_lft 2591961sec preferred lft 604761sec 
inet6 fe80::12c:42ff:fedb:ae3d/64 scope link 
Valid_lLft forever preferred lft forever 


$ ip route 

default via 10.211.55.1 dev enp0s5 metric 2 

10.211.55.0/24 dev enpos5 proto kernel scope link src 10.211.55.6 metric 2 
127.0.0.0/8 via 127.0.0.1 dev 10 


二 


包 可 以 进一步 接力 ， 到 达 更 远 的 主机 。IP 包 从 主机 出 发 ， 根 据 沿 途 路 由 器 的 路 由 表 指导 ， 在 
路 由 器 间接 力 。IP 包 最 终 到 达 某 个 路 由 器 ， 这 个 路 由 器 与 目标 主机 位 于 一 个 局 域 网 中 ， 可 以 
直接 建立 连接 层 的 通信 。 最 后 ，IP 包 被 送 到 目标 主机 。 这 样 一 个 过 程 叫做 routing( 我 们 就 叫 IP 
包 接 力 好 了 ， 路 由 这 个 词 实在 是 混合 了 太 多 的 意思 )。 整个 过 程 中 ，IP 包 不 断 被 主机 和 路 由 封 

装 入 帧 (信封 ) 并 拆 开 ， 然 后 借助 连接 层 ， 在 局 域 网 的 各 个 NIC 之 间 传 送 帧 。 整 个 过 程 中 ， 我 们 
的 IP 包 的 内 容 保持 完整 ， 没 有 发 生变 化 。 最 终 的 效果 是 一 个 IP 包 从 一 个 主机 传送 到 另 一 个 主 
机 。 利 用 |P 包 ， 我 们 不 需要 去 操心 底层 (比如 连接 层 ) 发 生 了 什么 


ARP 协 以 


在 上 面 的 过 程 中 ， 实际 上 假设 了 ， 每 一 人 台 主 机 和 路 由 都 能 了 解 局 域 网 内 的 |P 地 址 和 MAC 
地 址 的 对 应 关系 ， 这 是 实现 |P 包 封装 (encapsulation) 到 帧 的 基本 条 件 。|P 地 址 与 MAC 地 址 的 
对 应 是 ee 避 的 每 个 主机 和 路 由 。 每 一 台 主 机 或 路 由 中 都 有 一 个 ARP 
cache， 用 以 存储 局 域 网 内 IP 地 址 和 MAC 地 址 如 何 对 应 。 


ARP 协 议 介 于 连接 层 和 网 络 层 之 间 ，ARP 包 需要 包裹 在 一 个 帧 中 。 它 的 工作 方式 如 下 : 主机 
会 发 出 一 个 ARP 包 ， 该 ARP 包 中 包含 有 自己 的 IP 地 址 和 MAC 地 址 。 通 过 ARP 包 ， 主 机 以 广播 
的 形式 询问 局 域 网 上 所 有 的 主机 和 路 由 : 我 是 |P 地 址 xxxx， 我 的 MAC 地 址 是 xxxx， 有 人 知道 
199.165.146.4 的 MAC 地 址 吗 ? 拥有 该 IP 地 址 的 主机 会 回复 发 出 请 求 的 主机 : 哦 ， 我 知道 ， 这 
个 IP 地 址 属于 我 的 一 个 NIC， 它 的 MAC 地 址 是 xxxxxx。 由 于 发 送 ARP 请 求 的 主机 采取 的 是 广 
播 形式 ， 并 附带 有 自己 的 IP 地 址 和 MAC 地 址 ， 其 他 的 主机 和 路 由 会 同时 检查 自己 的 ARP 
cache， 如 果 不 符合 ， 则 更 新 自己 的 ARP cache 。 


这 样 ， 经 过 几 次 ARP 请 求 之 后 ，ARP cache 会 达到 稳定 。 如 果 局 域 网 上 设备 发 生变 动 ，ARP 
重复 上 面 过 程 。 
在 Linux 下 ， 可 以 使 用 $arp 命 令 来 查看 ARP 的 过 程 。ARP 协 议 只 用 于 IPv4。IPv6 使 用 


Neighbor Discovery Protocol 来 替代 ARP 的 功能 。 


路 由 表 的 生成 


之 前 的 信息 传递 基于 一 个 假设 : 每 个 人 手 里 都 有 份 准确 的 地 图 。 用 计算 机 的 话 来 说 ， 就 是 每 
个 主机 和 路 由 上 都 已 经 有 了 合理 的 路 由 表 。 这 个 路 由 表 描 述 了 网 络 上 的 路 径 信 息 。 如 果 你 了 

解 自 己 的 网 络 连接 ， 可 以 手写 自己 主机 的 路 由 表 。 但 是 ， 一 个 路 由 器 可 能 有 多 个 出 口 ， 所 以 

路 由 表 可 能 会 很 长 。 更 重要 的 是 ， 周 围 连 接 的 其 他 路 由 器 可 能 发 生变 动 (比如 新 增 路 由 器 或 者 
路 由 器 坏 掉 )， 我 们 就 需要 路 由 表 能 及 时 将 交通 寻 向 其 他 的 出 口 。 我 们 需要 一 种 更 加 智能 的 探 
测 周 围 的 网 络 拓扑 结构 ， 并 自动 生成 路 由 表 。 


&amap ofthe stations mentioned 


我 们 以 北京 地 铁 为 例子 。 如 果 从 机 场 前 往 朝 阳 门 ， 那 么 可 以 采取 2 号 航 站 楼 ->> 三 元 桥 ->> 东 直 
门 ->> 朝 阳 门 。2 号 航 站 楼 和 朝阳 门 分 别 是 出 发 和 目的 主机 。 而 三 元 桥 和 东直门 为 中 间 的 两 个 
路 由 器 。 如 果 三 元 桥 ->> 东 直 门 段 因为 维修 停 运 ， 我 们 需要 更 改 三 元 桥 的 路 由 表 ， 从 而 给 前 往 
朝阳 门 的 乘客 (IP 包 ) 指 示 : 请 走 如 下 路 线 三 元 桥 ->> 芍 药 居 。 然 后 依照 区 药 居 的 路 由 表 前 往 朝 
阳 门 (芍药 居 ->> 东 直 门 ->> 朝 阳 门 )。 


路 由 表 的 生成 同样 基于 网 络 。 一 种 用 来 生成 路 由 表 的 协议 是 RIP (Routing Information 
Protocol) 。 它 通过 “距离 ?来 决定 路 由 表 ， 所 以 属于 distance-vector protocol。 对 于 RIP 来 说 ， 
所 谓 的 “距离 "是 从 出 发 地 到 目的 地 途径 的 路 由 器 数目 (hop number) 。 RIP 的 基本 人 逻辑 是 : 如 果 
A 距离 B 为 6， 而 我 距离 A 为 1， 那么 我 途径 A 到 B 的 距离 为 7。 


比如 上 面 从 机 场 到 朝阳 门 ， 按 照 


2 号 航 站 楼 ->> 三 元 桥 ->> 东 直 门 ->> 朝 阳 门 路 线 ， 


途径 上 有 两 个 路 由 器 ， 因 此 从 起 点 到 终点 的 距离 为 2。 我们 最 初 可 以 手动 生成 三 元 桥 的 路 由 
表 。 随 后 ， 根 据 RIP 协 议 ， 三 元 桥 向 周围 的 路 由 器 和 主机 广播 自己 前 往 各 个 IP 的 距离 (比如 到 
机 场 =0， 团 结 湖 =0， 国 贸 =1， 望 京 西 =1， 建 国门 =2)。 收 到 RIP 包 的 路 由 器 和 主机 根据 RIP 包 
和 自己 到 发 送 RIP 包 的 主机 的 距离 ， 算 出 自己 前 往 各 个 IP 的 距离 。 东 直 门 与 三 元 桥 的 距离 为 
1°。 东直门 收 到 三 元 桥 的 RIP 包 (到 机 场 的 距离 为 0)， 那 么 东直门 途径 三 元 桥 前 往 机 场 的 距离 为 
1+0=1。 如 果 东 直 门 自己 的 RIP 记 录 都 比 这 个 远 ( 比 如 东直门 ->> 芍 药 居 ->> 三 元 桥 ->> 机 场 = 
2)。 那 么 东直门 更 改 自己 的 路 由 表 : 前 往 机 场 的 交通 都 发 往 三 元 桥 而 不 是 芍药 居 。 如 果 东 直 门 
自身 的 RIP 记 录 并 不 差 ， 那 么 东直门 保持 路 由 表 不 变 。 在 各 个 点 不 断 重 复 RIP 广 播 /计算 距 离 /更 
新 路 由 表 的 过 程 ， 最 终 所 有 的 主机 和 路 由 器 都 能 生成 最 合理 的 路 由 表 。 


RIP 出 于 技术 上 的 原因 (补充 looping hops)， 认 为 距离 超过 15 的 IP 不 可 到 达 。 所 以 RIP 更 多 用 于 
互联 网 的 一 部 分 (比如 整个 中 国电 信 的 网 络 )。 这 样 一 个 互联 网 的 部 分 往往 属于 同一 个 ISP 或 者 
有 同一 个 管理 机 构 ， 所 以 叫做 自治 系统 (AS,autonomous system)。 自 治 系统 内 部 的 主机 和 路 
由 根据 通 向 外 部 的 边界 路 由 器 来 和 其 它 的 自治 系统 通信 。 各 个 边界 路 由 器 之 问 通 过 


BGP(Border Gateway Protocol) 来 生成 自己 前 往 其 它 AS 的 路 由 表 。 自 治 系统 内 部 则 参照 边界 
路 由 器 ， 使 用 RIP 来 决定 路 由 表 。BGP 的 基本 工作 过 程 与 RIP 类 似 ， 但 在 考虑 距离 的 同时 ， 也 
权衡 比如 政策 、 连 接 性 能 等 其 他 因素 ， 再 决定 交通 的 走向 (路 由 表 ) 。 


总 结 


名 


/ 


我 们 一 开始 讲述 了 IP 包 根据 路 由 表 进 行 接力 的 过 程 。 为 了 顺利 实现 接力 ， 我 们 又 进一步 深入 
到 ARP 和 RIP/BGP。 这 三 个 协议 都 协助 了 IP 传 输 。ARP 让 每 台电 脑 和 路 由 器 知道 自己 局 域 网 
内 IP 地 址 和 MAC 地 址 的 对 应 关系 ， 从 而 顺利 实现 IP 包 到 帧 的 封装 。RIP 协 议 可 以 生成 自治 系统 
内 部 合理 的 路 由 表 。BGP 协 议 可 以 生成 自治 系统 外 部 的 路 由 表 。 


在 整个 过 程 中 ， 我 们 都 将 注意 力 放 在 了 IP 包 大 的 传输 过 程 中 ， 而 故意 忽略 一 些 细节 。 而 上 面 
的 IP 接力 过 程 适 用 于 IPv6。 


地 址 耗 尽 危机 (IPv4 与 IPv6 地 址 ) 


IP 地 址 是 |P 协 议 的 重要 组 成 部 分 ， 它 可 以 识别 接 入 互联 网 中 的 任意 一 台 设 备 。 在 IP 接力 中 ， 我 
们 已 经 看 到 ，IP 包 的 头 部 写 有 出 发 地 和 目的 地 的 |P 地 址 。|IP 包 上 携带 的 IP 地址 和 路 由 器 相配 
合 ， 最 终 允 许 IP 包 从 互联 网 的 一 台电 脑 传送 到 另 一 台 。 


在 IP 接 力 中 ， 我 们 是 以 IPv4 为 例 说 明 IP 包 的 格式 的 。IPv4 和 1IPv6 是 先后 出 现 的 两 个 IP 协 议 版 
本 。|IPv4 的 地 址 就 是 一 个 32 位 的 0/1 序 列 ， 比 如 11000000 00000000 0000000 00000011。 


为 了 方便 人 类 记录 和 阅读 ， 我 们 通常 将 32 位 0/1 分 成 4 段 8 位 序列 ， 并 用 10 进 制 来 表示 每 一 段 这 
样 ， 一 段 的 范围 就 是 0 到 255。 段 与 段 之 间 以 .分 隔 。 比 如 上 面 的 地 址 可 以 表示 成 为 192.0.0.3。 
IPv6 地 址 是 128 位 0/1 序 列 ， 它 也 按 8 位 分 割 ， 以 16 进 制 来 记录 每 一 段 。 使 用 16 进 制 而 不 是 10 
进 制 ， 能 让 写 出 来 的 |Pv6 地 址 短 一 些 。 上 段 与 段 之 间 以 :分 隔 。 


iP 地址 的 分 配 


IP 地 址 的 分 配 是 一 个 政策 性 的 问题 。ICANN(the Internet Corporation for Assigned Names 
and Numbers) 是 Internet 的 中 心 管 理 机 构 。ICANN 的 IANA(Internet Assigned Numbers 
Authority) 部 门 负 责 将 IP 地 址 分 配给 5 个 区 域 性 的 互联 网 注册 机 构 (RIR，Regional Internet 
Registries)， 比 如 APNIC， 它 负责 亚太 地 区 的 IP 分 配 。 然 后 RIR 将 地 址 进一步 分 配给 当地 的 
ISP(Internet Service Provider)， 比 如 中 国电 信和 中 国 网 通 。ISP 再 根据 自己 的 情况 ， 将 IP 地 址 
分 配给 机 构 或 者 直接 分 配给 用 户 ， 比 如 将 A 类 地 址 分 配给 一 个 超大 型 机 构 ， 而 将 C 类 地 址 分 配 
给 一 个 网 吧 。 机 构 可 以 进一步 在 局 域 网 内 部 分 配 |P 地 址 给 各 个 主机 。(A/B/C 类 地 址 请 参阅 |P 接 
力 ) 


并 不 是 所 有 的 地 址 都 会 被 分 配 。 一 些 地 址 被 预 留 ， 用 于 广播 、 测 试 、 私 有 网络 使 用 等 。 这 些 
地 址 被 称 为 专用 地 址 (special-use address)。 你 可 以 查询 RFC5735 来 了 解 哪些 地 址 是 专用 地 
址 。 这 个 文档 是 RFC 文 档 中 的 一 个 。 
RFC(Request For Comments) 是 一 系列 的 技术 文档 ， 用 于 记录 Internet 相 关 的 技术 和 协议 
规定 。 每 一 个 RFC 文 件 都 有 一 个 固定 的 编号 。 它 们 是 互联 网 的 一 个 重要 财产 。 你 可 以 通 
过 http://www.rfc-editor.org/ 来 查找 RFC 文 件 。 


IPv4 地 址 耗 尽 


由 于 |IPv4 协 议 的 地 址 为 32 位 ， 所 以 它 可 以 提供 大 约 40 亿 个 地 址 。 如 果 地 球 人 每 人 一 个 I|P 地 址 
的 话 ，IPv4 地 址 已 经 远 远 不 够 。 更 何况 ， 人均 持 有 的 入 网 设备 可 能 要 远 多 于 一 个 ， 下 图 中 显 
示 了 一 个 家 庭 对 IP 地 址 的 需求 ， 这 种 需求 量 已 经 相当 常见 了 : 1 We need more IP address ! 


下 图 显示 了 各 大 洲 RIR 的 IPv4 地 址 耗 尽 日 期 (IANA 已 经 将 所 有 的 IP 分 配给 各 个 RIR) : 5 个 RIR 
区 域 的 预计 耗 尽 日 期 


尽管 一 些 技 术 措 施 ， 比 如 NAT 技 术 ， 可 以 为 更 多 的 网 络 设备 提供 地 址 ， 从 而 减缓 了 情况 的 紧急 
程度 ， 但 |Pv4 地 址 耗 尽 的 一 天 终究 还 是 会 很 快 到 来 。 很 明显 ， 我 们 需要 更 多 的 I|P 地 址 ， 以 满 
足 爆 炸 式 增长 的 互联 网 设备 对 |IP 地 址 的 需求 。 & Too much stuff for IPv4 


更 长 = 更 好 


IPv6 协 议 的 地 址 最 重要 的 改进 就 是 : 加 长 。|IPv6 的 地 址 为 128 人 位。 准确 的 说 ，IPv4 有 
4,294,967,296 个 地 址 ， 而 IPv6 有 340,282,366,920,938,463,374,607,431,768,211,456 个 地 
址 。 这 是 怎样 一 个 概念 呢 ? 我 们 可 以 大 概 计算 一 下 


地 球 表面 积 大 约 为 510,067,866,000,000 平 方 米 。 在 一 平方 厘米 ， 也 就 是 大 约 指 甲 益 大 小 的 面 
积 内 ， 我 们 可 以 有 将 近 7000 个 IP 地 址 ! 所 以 在 短期 的 时 间 内 ， 我 们 应 该 不 会 看 到 IPv6 被 用 尽 
的 槛 砍 ( 不 排除 在 未 来 计算 机 以 分 子 尺寸 出 现 ， 那 么 我 们 就 会 有 IPv6 耗 尽 危 机 了 )。1IPv6 是 解决 
IP 地 址 危机 的 最 终 方案 。 


阻碍 迁移 的 过 程 的 主要 在 于 IPv4 和 1IPv6 格 式 的 不 兼容 性 。 老 的 路 由 器 支持 IPv4 格 式 的 IP 包 ， 
但 它们 无 法 理解 IPv6 格 式 的 |P 包 。 所 以 这 一 迁移 过 程 必然 要 伴随 者 设备 的 更 新 。 然 而 ， 我 们 
sat 不 可 能 一 夜 之 间 停 止 |Pv4 网 络 的 服务 而 整体 迁 
移 到 IPv6 网 络 中 。 迁移 过 程 注定 充满 坎坷 。 


冯 结 


名 


八 


IPv4 地 址 正在 耗 尺 ， 而 |Pv6 通 过 更 长 的 序列 提供 了 更 多 的 IP 地 址 。IPv4 向 IPv6 的 迁移 正在 发 
生 。 


我 尽力 (IP 协 议 详 解 ) 


IP 地 址 是 IP 协 议 的 重要 组 成 部 分 ， 但 远 非 IP 协 议 的 全 部 。 我 们 再 来 看 一 看 IP 协 议 的 具体 细节 和 
设计 芹 学 。 


IPv4 与 IPv6 头 部 的 对 上 比 


ll format of IP header 


我 们 已 经 在 IP 接 力 中 介绍 过 ， 一 个 |P 包 分 为 头 部 (header) 和 数据 (payload/data) 两 部 分 。 头 部 
是 为 了 实现 IP 通 信 必 须 的 附加 信息 ， 数 据 是 IP 通信 所 要 传送 的 信息 。 


黄色 区 域 (同名 区 域 ) 


我 们 看 到 ， 三 个 黄色 区 域 跨越 了 IPv4 和 |Pv6。Version(4 位 ) 用 来 表明 IP 协 议 版 本 ， 是 IPv4 还 是 
IPv6(IPv4, Version=0100; IPv6, Version=0110)。Source Adrresss 和 Destination Address 分 别 
为 发 出 地 和 目的 地 的 IP 地 址 。 


蓝 色 区 域 (名 字 发 生变 动 的 区 域 ) 


Time to Live 存活 时 间 (Hop Limit in IPv6)。Time to Live 最 初 是 表示 一 个 IP 包 的 最 大 存活 时 
间 : 如 果 IP 包 在 传输 过 程 中 超过 Time to Live， 那 么 IPP 包 就 作废 。 后 来 ，IPv4 的 这 个 区 域 记 录 
一 个 整数 (比如 30)， 表 示 在 IP 包 接力 过 程 中 最 多 经 过 30 个 路 由 接力 ， 如 果 超 过 30 个 路 由 接 
力 ， 那 么 这 个 IP 包 就 作废 。IP 包 每 经 过 一 个 路 由 器 ， 路 由 器 就 给 Time to Live 减 一 。 当 一 个 路 
由 器 发 现 Time to Live 为 0 时 ， 就 不 再 发 送 该 I|P 包 。IPv6 中 的 Hop Limit 区 域 记 录 的 也 是 最 大 路 
由 接力 数 ， 与 IPv4 的 功能 相同 。Time to Live/Hop Limit 避 免 了 IP 包 在 互联 网 中 无 限 接力 。 


Type of Service 服务 类 型 (Traffic Class in IPv6)。Type of Service 最 初 是 用 来 给 |P 包 分 优先 

级 ， 比 如 语音 通话 需要 实时 性 ， 所 以 它 的 IP 包 应 该 比 Web 服 务 的 |P 包 有 更 高 的 优先 级 。 然 而 ， 
这 个 最 初 不 错 的 想法 没有 被 微软 采纳 。 在 Windows 下 生成 的 IP 包 都 是 相同 的 最 高 优先 级 ， 所 
以 在 当时 造成 Linux 和 Windows 混 合 网 络 中 ，Linux 的 IP 传 输 会 慢 于 Windows (仅仅 是 因为 Linux 
更 加 守 规矩 ! )。 后 来 ，Type of Service 被 实际 分 为 两 部 分 : Differentiated Service Field (DS,， 
前 6 位 ) 和 Explicit Congestion Notification (ECN, 后 2 位 )， 前 者 依然 用 来 区 分 服务 类 型 ， 而 后 者 
用 于 表明 IP 包 途径 路 由 的 交通 状况 。IPv6 的 Traffic Class 也 被 如 此 分 成 两 部 分 。 通 过 IP 包 提供 
不 同 服务 的 想法 ， 并 针对 服务 进行 不 同 的 优化 的 想法 已 经 产生 很 久 了 ， 但 具体 做 法 并 没有 形 
成 公认 的 协议 。 比 如 ECN 区 域 ， 它 用 来 表示 IP 包 经 过 路 径 的 交通 状况 。 如 果 接 收 者 收 到 的 
ECN 区 域 显示 路 径 上 的 很 拥挤 ， 那 么 接收 者 应 该 作出 调整 。 但 在 实际 上 ， 许 多 接收 者 都 会 忽 
视 ECN 所 包含 的 信息 。 交 通 状 况 的 控制 往往 由 更 高 层 的 比如 TCP 协 议 实现 。 


Protocol 协议 (Next Header in IPv6)。Protocol 用 来 说 明 IP 包 Payload 部 分 所 遵循 的 协议 ， 也 就 
是 IP 包 之 上 的 协议 是 什么 。 它 说 明了 IP 包 封装 的 是 一 个 怎样 的 高 层 协 议 包 (TCP? UDP?) 。 


Total Length, 以 及 IPv6 中 Payload Length 的 讨论 要 和 |HL 区 域 放 在 一 起 ， 我 们 即将 讨论 。 


红色 区 域 (IPv6 中 删除 的 区 域 ) 


我 们 看 一 下 IPv4 和 |Pv6 的 长 度 信 息 。|IPv4 头 部 的 长 度 。 在 头 部 的 最 后 ， 是 options。 每 个 
options 有 32 人 位， 是 选 填 性 质 的 区 域 。 一 个 IPv4 头 部 可 以 完全 没有 options 区 域 。 不 考虑 options 
的 话 ， 整 个 IPv4 头 部 有 20 bytes( 上 面 每 行为 4 bytes)。 但 由 于 有 options 的 存在 ， 整 个 头 部 的 总 
长 度 是 变动 的 。 我 们 用 IHL(Internet Header Length) 来 记录 头 部 的 总 长 度 ， 用 Total Length 记 
录 整 个 IP 包 的 长 度 。IPv6 没 有 options， 它 的 头 部 是 国定 的 长 度 40 bytes， 所 以 IPv6 中 并 不 需 
要 IHL 区 域 。Payload Length 用 来 表示 IPv6 的 数据 部 分 的 长 度 。 整 个 IP 包 为 40 bytes + 
Payload Length 。 


IPv4 中 还 有 一 个 Header Checksum 区 域 。 这 个 checksum 用 于 校 验 IP 包 的 头 部 信息 。 
Checksum 与 之 前 在 小 喇叭 中 提 到 的 CRC 算 法 并 不 相同 。IPv6 则 没有 checksum 区 域 。IPv6 包 
的 校 验 依赖 高 层 的 协议 来 完成 ， 这 样 的 好 处 是 免 去 了 执行 checksum 校 验 所 需要 的 时 间 ， 减 小 
了 网 络 延 六 (latency)。 


Identification, flags 和 fragment offset， 这 三 个 包 都 是 为 碎片 化 (fragmentation) 服 务 的 。 碎 片 化 
是 指 一 个 路 由 器 将 接收 到 的 IP 包 分 拆 成 多 个 IP 包 传送 ， 而 接收 这 些 “ 雁 片 " 的 路 由 器 或 者 主机 需 
要 将 “碎片 "重新 组 合 (reassembly) 成 一 个 IP 包 。 不 同 的 局 域 网 所 支持 的 最 大 传输 单元 (MTU， 
Maximum Transportation Unit) 不 同 。 如 果 一 个 IP 包 的 大 小 超过 了 局 域 网 支持 的 MTU， 就 需要 
在 进入 该 局 域 网 时 碎片 化 传输 (就 好 像 方面 面 面 亿 太 大 了 ， 人 必须 猎 太 才能 放 进 碗 里 )。 碎 片 化 会 
给 路 由 器 和 网 络 带 来 很 大 的 负担 。 最 好 在 IP 包 发 出 之 前 探测 整个 路 径 上 的 最 小 MTU，IP 包 的 
大 小 不 超过 该 最 小 MTU， 就 可 以 避免 碎片 化 。IPv6 在 设计 上 避免 碎片 化 。 每 一 个 I|Pv6 局 域 网 
的 MTU 都 必须 大 于 等 于 1280 bytes。IPv6 的 默认 发 送 IP 包 大 小 为 1280 bytes。 


令 人 痛苦 的 碎片 化 


绿色 区 域 (IPv6 新 增 区 域 ) 


Flow Label 是 IPv6 中 新 增 的 区 域 。 它 被 用 来 提醒 路 由 器 来 重复 使 用 之 前 的 接力 路 径 。 这 样 IP 包 
可 以 自动 保持 出 发 时 的 顺序 。 这 对 于 流 媒体 之 类 的 应 用 有 帮助 。Flow label 的 进一步 使 用 还 在 
开发 中 。 


“A 


IP 协 议 在 产生 时 是 一 个 松散 的 网 络 ， 这 个 网 络 由 各 个 大 学 的 局 域 网 相互 连接 成 的 ， 由 一 群 碰 
头 垢 面 的 Geek 维 护 。 所 以 ，IP 协 议 认为 自己 所 处 的 环境 是 不 可 靠 (unreliable) 的 : 诸如 路 由 器 
坏 掉 、 实 验 室 失 火 、 茶 个 PhD 踢 掉 电缆 之 类 的 事情 随时 会 发 生 。 


不 靠 谱 的 网 络 


这 样 的 凶险 环境 下 ，IP 协 议 提供 的 传送 只 能 是 “我 尽力 ” (best effort) 式 的 。 所 谓 的 “我 尽力 ”， 其 
es ， 如 果 事 情 出 错 不 要 怪我 ， 我 只 是 答应 了 尽力 ， 可 没 保 证 什么 。 所 以 ， 如 果 IP 包 传 

俞 过 程 中 出 现 错误 (比如 checksum 对 不 上 ， 比 如 交通 太 繁忙 ， 比 如 超过 Time to Live)， 根 据 IP 
， 你 的 IP 包 会 直接 被 丢掉 。Game Over 不 会 再 有 进一步 的 努力 来 修正 错误 。Best effort 
让 IP 协 议 保 持 很 简单 的 形态 。 更 多 的 质量 控制 交 给 高 层 协 议 处 理 ，IP 协 议 只 负责 有 效率 的 传 
输 。 


(多 么 不 负责 任 的 邮递 系统 ) 


“效率 优先 "也 体现 在 IP 包 的 顺序 (order) 上 。 即 使 出 发 地 和 目的 地 保持 不 变 ，IP 协 议 也 不 保证 |P 
包 到 达 的 先后 顺序 。 我 们 已 经 知道 ，|P 接 力 是 根据 routing table 决 定 接力 路 线 的 。 如 果 在 连续 
的 IP 包 发 送 过 程 中 ，routing table 更 新 (比如 有 一 条 新 建 的 捷径 出 现 )， 那 么 后 发 出 的 IP 包 选择 

走 不 一 样 的 接力 路 线 。 如 果 新 的 路 径 传 输 速 度 更 快 ， 那么 后 发 出 的 IP 包 有 可 能 先 到 。 这 就 好 

像 是 多 车 道 的 公路 上 ， 每 辆 车 都 在 不 停 变换 车 道 ， 最 终 所 有 的 车 道 都 塞 满 汽 车 。 这 样 可 以 让 

公路 利用 率 达 到 最 大 。 


“插队 ， 


IPv6 中 的 Flow Label 可 以 建议 路 由 器 将 一 些 IP 包 保持 一 样 的 接力 路 径 。 但 这 只 是 “建议 ”， 路 由 
器 可 能 会 忽略 该 建议 。 


大 和 、 
Header Checksum 算 法 
Header Checksum 区 域 有 16 位 。 它 是 这 样 获得 的 ， 从 header 取 得 除 checksum 之 外 的 0/1 序 
列 ， 比 如 : 


9194 8073 0000 4000 4011 COA8 0001 COA8 00C7 (十 六 进 制 hex, 这 是 一 个 为 演示 运算 过 程 
而 设计 的 header) 

按照 十 六 位 (也 就 是 4 位 hex) 分 割 整 个 序列 。 将 分 割 后 的 各 个 4 位 hex 系 积 相 加 。 如 果 有 超过 16 
位 的 进位 出 现 ， 则 将 进位 加 到 后 16 位 结果 的 最 后 一 位 : 


Binary Hex 

1001000110010100 9194 
+ 1000000001110011 8073 
1 0001001000000111 11207 
二 工 


0001001000001000 1208 


上 面 的 计算 叫做 one's complement sum。 求 得 所 有 十 六 位 数 的 和 ，one's complement 
sum(4500, 0073, 0000, 4000, 4011, COA8, 0001, COA8, 00C7) = 1433 


然后 ， 将 1433 的 每 一 位 取 反 (0->1, 1->0)， 就 得 到 checksum : EBCC 
这 样 ， 我 们 的 header 就 是 : 
9194 8073 9669 4000 4611 EBCC CoA8 0001 COA8 00C7 
IP 包 的 接收 方 在 接收 到 |P 包 之 后 ， 可 以 求 上 面 各 个 16 位 数 的 one's complement sum， 应 该 得 
到 FFFF。 如 果 不 是 FFFF， 那 么 header 是 不 正确 的 ， 整 个 I|P 包 会 被 丢弃 。 


再 次 提醒 ， 示 例 所 用 的 IP header 不 是 丨 实 的 header， 它 只 是 起 演示 算法 的 作用 


总 结 


名 


1 


每 个 网 络 协议 的 形成 都 有 其 历史 原因 。 比 如 IP 协 议 是 为 了 将 各 个 分 散 的 实验 室 网 络 连接 起 
来 。 由 于 当时 的 网 络 很 小 ， 所 以 IPv4(IPv4 产 生 与 70 年 代 ) 的 地 址 总 量 为 40 亿 。 尽 管 当时 被 认为 
是 很 大 的 数字 ， 但 数字 浪潮 很 快 带 来 了 地 址 耗 尽 危机 。IPv6 的 主要 目的 是 增加 |Pv4 的 地 址 容 
量 ， 但 同时 根据 IPv4 的 经 验 和 新 时 代 的 技术 进步 进行 改进 ， 比 如 避免 碎片 化 ， 比 如 取消 
checksum (由 于 高 层 协 议 TCP 的 广泛 使 用 )。 网 络 协 议 技 术 上 并 不 复杂 ， 更 多 的 考量 是 政策 性 
的 。 


IP 协 议 是 "Best Effort" 式 的 ，IP 传 输 是 不 可 靠 的 。 但 这 样 的 设计 成 就 了 IP 协 议 的 效率 。 


瑞士 军刀 (ICMP 协 议 ) 


到 现在 为 止 ， 我 们 讲解 了 网 络 层 中 最 重要 的 IP 协 议 (参考 协议 森林 ) 。|P 协 议 的 一 个 重要 补充 是 
是 ICMP 协 议 。 


ICMP 协 以 


ICMP (Internet Control Message Protocol) 是 介 于 网 络 层 和 传输 层 的 协议 。 它 的 主要 功能 是 
传输 网 络 诊断 信息 。 


ICMP 传 输 的 信息 可 以 分 为 两 类 ， 一 类 是 错误 (error) 信息 ， 这 一 类 信息 可 用 来 诊断 网 络 故 
障 。 我 们 已 经 知道 ，IP 协 议 的 工作 方式 是 "Best Effort"， 如 果 IP 包 没有 被 传送 到 目的 地 ， 或 者 
IP 包 发 生 错 误 ，IP 协 议 本 身 不 会 做 进一步 的 努力 。 但 上 游 发 送 IP 包 的 主机 和 接力 的 路 由 器 并 不 
知道 下 游 发 生 了 错误 和 故障 ， 它 们 可 能 继续 发 送 |P 包 。 通 过 ICMP 包 ， 下 游 的 路 由 器 和 主机 可 
以 将 错误 信息 汇报 给 上 游 ， 从 而 让 上 游 的 路 由 器 和 主机 进行 调整 。 需 要 注意 的 是 ，ICMP 只 提 
供 特 定 类 型 的 错误 汇报 ， 它 不 能 帮助 IP 协 议 成 为 “< 可靠 ”(reliable) 的 协议 。 另 一 类 信息 是 咨 
询 (Informational) 性 质 的 ， 比 如 某 台 计算 机 询问 路 径 上 的 每 个 路 由 器 都 是 谁 ， 然 后 各 个 路 由 
器 同样 用 ICMP 包 回答 。 
ICMP 基 于 IP 协 议 。 也 就 是 说 ， 一 个 ICMP 包 需要 封装 在 IP 包 中 ， 然 后 在 互联 网 传送 。 
ICMP 是 IP 套 装 的 必须 部 分 ， 也 就 是 说 ， 任 何 一 个 支持 |P 协 议 的 计算 机 ， 都 要 同时 实现 
ICMP 。 
ICMP 包 的 结构 : 
Abunch of Types 
ICMP 包 都 会 有 Type, Code 和 Checksum 三 部 分 。Type 表 示 ICMP 包 的 大 的 类 型 ， 而 Code 是 一 
个 Type 之 内 细 分 的 小 类 型 。 针 对 不 同 的 错误 信息 或 者 咨询 信息 ， 会 有 不 同 的 Type 和 Code。 从 
上 面 我 们 可 以 看 到 ，ICMP 支 持 的 类 型 非常 多 ， 就 好 像 瑞士 军刀 一 样 ， 有 各 种 各 样 的 功能 。 
Checksum 与 |P 协 议 的 header checksum 相 类 似 ， 但 与 IP 协 议 中 checksum 只 校 验 头 部 不 同 ， 
这 里 的 Checksum 所 校 验 的 是 整个 ICMP 包 (包括 头 部 和 数据 ) 。 
余下 的 ICMP 包 格式 根据 不 同 的 类 型 不 同 。 另 一 方面 ，ICMP 包 通常 是 由 某 个 IP 包 触发 的 。 这 
个 触发 |P 包 的 头 部 和 一 部 份 数据 会 被 包含 在 ICMP 包 的 数据 部 分 。 


ICMP 协 议 是 实现 ping 命 令 和 traceroute 命 令 的 基础 。 这 两 个 工具 常用 于 网 络 排 错 。 


pA 


常见 的 ICMP 包 类 型 


回首 


回音 (Echo) 属于 咨询 信息 。ping 命 令 就 是 利用 了 该 类 型 的 ICMP 包 。 当 使 用 ping 命 令 的 时 候 ， 
将 向 目标 主机 发 送 Echo- 询 问 类 型 的 ICMP 包 ， 而 目标 主机 在 接收 到 该 ICMP 包 之 后 ， 会 回复 
Echo- 回 答 类 型 的 ICMP 包 ， 并 将 询问 ICMP 包 包含 在 数据 部 分 。ping 命 令 是 我 们 进行 网 络 排查 
的 一 个 重要 工具 。 如 果 一 个 IP 地 址 可 以 通过 ping 命 令 收 到 回复 ， 那 么 其 他 的 网 络 协议 通信 方式 
也 很 有 可 能 成 功 。 


源头 冷却 


源头 冷却 (source quench) 属于 错误 信息 。 如 果 某 个 主机 快速 的 向 目的 地 传送 数据 ， 而 目的 地 
主机 没有 匹配 的 处 理 能 力 ， 目 的 地 主机 可 以 向 出 发 主机 发 出 该 类 型 的 ICMP 包 ， 提 醒 出 发 主机 
放 慢 发 送 速 度 (请 温柔 一 点 吧 ) 。 


目的 地 无 法 到 达 


目的 地 无 法 到 达 (Destination Unreachable) 属于 错误 信息 。 如 果 一 个 路 由 器 接收 到 一 个 没 办 
法 进一步 接力 的 IP 包 ， 它 会 向 出 发 主机 发 送 该 类 型 的 ICMP 包 。 比 如 当 IP 包 到 达 最 后 一 个 路 由 
器 ， 路 由 器 发 现 目的 地 主机 down 机 ， 就 会 向 出 发 主机 发 送 目的 地 无 法 到 达 (Destination 
Unreachable) 类 型 的 ICMP 包 。 目 的 地 无 法 到 达 还 可 能 有 其 他 的 原因 ， 比 如 不 存在 接力 路 径 ， 
比如 不 被 接收 的 端口 号 等 等 。 


超时 


超时 (Time Exceeded) 属于 错误 信息 。|IPv4 中 的 Time to Live (TTL) 和 |Pv6 中 的 Hop Limit 会 随 
着 经 过 的 路 由 器 而 递减 ， 当 这 个 区 域 值 减 为 0 时 ， 就 认为 该 P 包 超时 (Time Exceeded) 。Time 
Exceeded 就 是 TTL 减 为 0 时 的 路 由 器 发 给 出 发 主机 的 |CMP 包 ， 通 知 它 发 生 了 超时 错误 。 


traceroute 就 利用 了 这 种 类 型 的 ICMP 包 。traceroute 命 令 用 来 发 现 IP 接 力 路 径 (route) 上 的 各 
个 路 由 器 。 它 向 目的 地 发 送 IP 包 ， 第 一 次 的 时 候 ， 将 TTL 设 置 为 1， 引 发 第 一 个 路 由 器 的 Time 
Exceeded 错 误 。 这 样 ， 第 一 个 路 由 器 回复 ICMP 包 ， 从 而 让 出 发 主机 知道 途径 的 第 一 个 路 由 
器 的 信息 。 随 后 TTL 被 设置 为 2、3、4，...， 直 到 到 达 目 的 主机 。 这 样 ， 沿 途 的 每 个 路 由 器 都 
会 向 出 发 主机 发 送 ICMP 包 来 汇报 错误 。traceroute 将 ICMP 包 的 信息 打印 在 屏幕 上 ， 就 是 接力 
路 径 的 信息 了 。 


重新 定向 


重新 定向 (redirect) 属于 错误 信息 。 当 一 个 路 由 器 收 到 一 个 |P 包 ， 对 照 其 routing table， 发 现 
自己 不 应 该 收 到 该 |P 包 ， 它 会 向 出 发 主机 发 送 重 新 定向 类 型 的 ICMP， 提 醒 出 发 主机 修改 自己 
的 routing table。 比 如 下 面 的 网 络 : 


假如 145.1 发 送 到 145.15 的 IP 包 ， 结 果 被 中 间 的 路 由 器 通过 145.17 的 NIC 收 到 。 那 么 路 由 器 会 
发 现 ， 根 据 自 己 的 routing table， 这 个 IP 包 要 原 路 返回 。 那 么 router 就 可 以 判断 出 145.1 的 
routing table 可 能 有 问题 。 所 以 路 由 器 会 向 145.1 发 送 redirect 类 型 的 ICMP 包 。 


IPv6 的 Neighbor Discovery 


ARP 协 议 用 于 发 现 周边 的 IP 地 址 和 MAC 地 址 的 对 应 。 然 而 ，ARP 协 议 只 用 于 IPv4，IPv6 并 不 
使 用 ARP 协 议 。IPv6 包 通过 邻居 探索 (ND，Neighbor Discovery) 来 实现 ARP 的 功能 。ND 的 工 
作 方 式 与 ARP 类 似 ， 但 它 基 于 ICMP 协 议 。ICMP 包 有 Neighbor Solicitation 和 Neighbor 
Advertisement 类 型 。 这 两 个 类 型 分 别 对 应 ARP 协 议 的 询问 和 回复 信息 。 


总 结 


/ 


名 


ICMP 协 议 是 IP 协 议 的 排 错 帮手 ， 它 可 以 帮助 人 们 及 时 发 现 IP 通 信 中 出 现 的 故障 。 基 于 ICMP 的 
ping 和 traceroute 也 构成 了 重要 的 网 络 诊断 工具 。 然 而 ， 需 要 注意 的 是 ， 尽 管 ICMP 的 设计 是 出 
于 好 的 意图 ， 但 |CMP 却 经 常 被 黑客 借用 进行 网 络 攻 击 ， 比 如 利用 伪造 的 IP 包 引发 大 量 的 
ICMP 回 复 ， 并 将 这 些 |CMP 包 导向 受害 主机 ， 从 而 形成 DoS 攻 击 。 而 redirect 类 型 的 ICMP 包 可 
以 引起 某 个 主机 更 改 自 己 的 路 由 表 ， 所 以 也 被 用 作 攻 击 工 具 。 许 多 站 点 选择 忽视 某 些 类 型 的 
ICMP 包 来 提高 自身 的 安全 性 。 


使 偶 (UDP 协议 ) 


我 们 已 经 讲解 了 物理 层 、 连 接 层 和 网 络 层 。 最 开始 的 连接 层 协 议 种 类 繁多 (Ethernet、Wifi、 
ARP 等 等 )。 到 了 网 络 层 ， 我 们 只 剩 下 一 个 IP 协 议 (IPv4 和 1IPv6 是 替代 关系 )。 进 入 到 传输 层 
(transport layer)， 协 议 的 种 类 又 开始 繁多 起 来 (比如 TCP、UDP、SCTP 等 )。 这 就 好 像 下 面 的 
大 树 ， 根 部 (连接 层 ) 分 又 很 多 ， 然 后 统一 到 一 个 树干 (网 络 层 )， 到 了 树冠 (传输 层 ) 部 分 又 开始 
开始 分 又 ， 而 每 个 树枝 上 长 出 更 多 的 树叶 (应 用 层 )。 我 们 在 网 络 层 已 经 看 到 ， 通 过 树干 的 统 
一 ， 我 们 实现 了 一 个 覆盖 全 球 的 互联 网 络 (Internet)。 然 而 ， 我 们 可 能 出 于 不 同 的 目的 利用 这 
张 “ 网 ”， 随 之 使 用 的 方式 也 有 所 区 分 。 不 同 的 传输 层 协 议 ( 以 及 更 多 的 应 用 层 协议 ) 正 是 我 们 使 
用 “网 "的 不 同方 式 的 体现 。 


网 络 分 层 的 “艺术 ”观点 


传输 层 最 重要 的 协议 为 TCP 协 议和 UDP 协 议 。 这 两 者 使 用 “网 "的 方式 走 了 两 个 极端 。 两 个 协议 
的 对 比 非常 有 趣 。TCP 协 议 复 杂 ， 但 传输 可 靠 。UDP 协 议 简单 ， 但 传输 不 可 靠 。 其 他 的 各 个 
传输 层 协 议 在 某 种 程度 上 都 是 这 两 个 协议 的 折 中 。 我 们 先 来 看 传输 层 协议 中 比较 简单 的 UDP 
协议 。 我 们 将 参考 许多 之 前 文章 的 内 容 ( 协 议 森 林 01, 03, 05) 。 


UDP 协议 简介 


UDP(User Datagram Protocol) 传 输 与 IP 传 输 非常 类 似 。 你 可 以 将 UDP 协 议 看 作 IP 协 议 暴露 在 
传输 层 的 一 个 接口 。UDP 协 议 同样 以 数据 包 (datagram) 的 方式 传输 ， 它 的 传输 方式 也 是 "Best 
Effort" 的 ， 所 以 UDP 协议 也 是 不 可 靠 的 (unreliable)。 那 么 ， 我 们 为 什么 不 直接 使 用 |P 协 议 而 要 
额外 增加 一 个 UDP 协议 呢 ? 一 个 重要 的 原因 是 IP 协 议 中 并 没有 端口 (port) 的 概念 。IP 协 议 进行 
的 是 IP 地 址 到 IP 地 址 的 传输 ， 这 意味 者 两 台 计 算 机 之 间 的 对 话 。 但 每 台 计 和 草 机 中 需要 有 多 个 通 
信 通 道 ， 并 将 多 个 通信 通道 分 配给 不 同 的 进程 使 用 (关于 进程 ， 可 以 参考 Linux 进 程 基础 )。 一 
个 端口 就 代表 了 这 样 的 一 个 通信 通道 。 正 如 我 们 在 邮局 和 邮差 中 提 到 的 收 信人 的 概念 一 样 。 
UDP 协议 实现 了 端口 ， 从 而 让 数据 包 可 以 在 送 到 IP 地 址 的 基础 上 ， 进 一 步 可 以 送 到 某 个 端 

口 o 


& UDP ; 依然 不 是 那么 "可靠 ” 


尽管 UDP 协议 非常 简单 ， 但 它 的 产生 晚 于 更 加 复杂 的 TCP 协 议 。 早 期 的 网 络 开 发 者 开发 出 |P 
协议 和 TCP 协 议 分 别 位 于 网 络 层 和 传输 层 ， 所 有 的 通信 都 要 先 经 过 TCP 封 装 ， 再 经 过 IP 封 装 
(应 用 层 ->TCP->IP)。 开 发 者 将 TCP/IP 视 为 相互 合作 的 套装 。 但 很 快 ， 网 络 开 发 者 发 现 ，IP 协 
议 的 功能 和 TCP 协 议 的 功能 是 相互 独立 的 。 对 于 一 些 简 单 的 通信 ， 我 们 只 需要 “Best Effort” 式 
的 IP 传 输 就 可 以 了 ， 而 不 需要 TCP 协 议 复 杂 的 建立 连接 的 方式 (特别 是 在 早期 网 络 环境 中 ， 如 
果 过 多 的 建立 TCP 连 接 ， 会 造成 很 大 的 网 络 负担 ， 而 UDP 协议 可 以 相对 快速 的 处 理 这 些 简单 


通信 )。UDP 协 议 随 之 被 开发 出 来 ， 作 为 IP 协 议 在 传输 层 的 " 倪 偶 "。 这 样 ， 网 络 通信 可 以 通过 
应 用 层 ->UDP->IP 的 封装 方式 ， 绕 过 TCP 协 议 。 由 于 UDP 协议 本 身 异 常 简单 ， 实 际 上 只 为 |P 
传输 起 到 了 桥梁 的 作用 。 我 们 将 在 TCP 协 议 的 讲解 中 看 到 更 多 TCP 协 议和 UDP 协议 的 对 比 。 


&IP 和 他 的 便 偶 UDP 


UDP 的 数据 包 同 样 分 为 头 部 (header) 和 数据 (payload) 两 部 分 。UDP 是 传输 层 (transport layer) 
协议 ， 这 意味 着 UDP 的 数据 包 需 要 经 过 IP 协议 的 封装 (encapsulation)， 然 后 通过 |P 协 议 传输 到 
目的 电脑 。 随 后 UDP 包 在 目的 电脑 拆 封 ， 并 将 信息 送 到 相应 端口 的 缓存 中 。 


中 UDP 协议 的 头 部 


上 面 的 source port 和 destination port 分 别 为 UDP 包 的 出 发 端口 和 目的 地 端口 。Length 为 整个 
UDP 包 的 长 度 。 


checksum 的 算法 与 I|P 协 议 的 header checksum 算 法 相 类 似 。 然 而 ，UDP 的 checksum 所 校 验 

的 序列 包括 了 整个 UDP 数据 包 ， 以 及 封装 的 IP 头 部 的 一 些 信 息 (主要 为 出 发 地 IP 和 目的 地 IP)。 
这 样 ，checksum 就 可 以 校 验 IP : 端口 的 正确 性 了 。 在 IPv4 中 ，checksum 可 以 为 0， 意 味 着 不 
使 用 checksum 。IPv6 要 求 必须 进行 checksum 校 验 。 


端口 与 socket 


端口 (port) 是 伴随 着 传输 层 诞生 的 概念 。 它 可 以 将 网 络 层 的 IP 通 信 分 送 到 各 个 通信 通道 。UDP 
协议 和 TCP 协 议 尽管 在 工作 方式 上 有 很 大 的 不 同 ， 但 它们 都 建立 了 从 一 个 端口 到 另 一 个 端口 
的 通信 。 


协议 森林 


Port 





IP 3 
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随 着 我 们 进入 传输 层 ， 我 们 也 可 以 调用 操作 系统 中 的 API， 来 构建 socket。Socket 是 操作 系统 
提供 的 一 个 编程 接口 ， 它 用 来 代表 某 个 网 络 通信 。 应 用 程序 通过 Socket 来 调用 系统 内 核 中 处 理 
网 络 协议 的 模块 ， 而 这 些 内 核 模块 会 负责 具体 的 网 络 协 议 的 实施 。 这 样 ， 我 们 可 以 让 内 核 来 
接收 网 络 协议 的 细节 ， 而 我 们 只 需要 提供 所 要 传输 的 内 容 就 可 以 了 ， 内 核 会 帮 有 我 们 控制 格 

式 ， 并 进一步 向 底层 封装 。 因 此 ， 在 实际 应 用 中 ， 我 们 并 不 需要 知道 具体 怎么 构成 一 个 UDP 
包 ， 而 只 需要 提供 相关 信息 (比如 IP 地 址 ， 比 如 端口 号 ， 比 如 所 要 传输 的 信息 )， 操 作 系 统 内 术 
会 在 传输 之 前 会 根据 我 们 提供 的 相关 信息 构成 一 个 合格 的 UDP 包 (以 及 下 层 的 包 和 帧 )。socket 
是 一 个 比较 大 的 课题 ， 在 协议 森林 系列 中 不 会 过 多 深入 。 


便 偶 (UDP 协议 ) 30 


在 原始 Python 服务 器 我 们 讨论 了 如 何 使 用 Socket 建 立 一 个 TCP 连 接 ， 可 以 作为 一 个 参 
老 O 


了 


端口 是 传输 层 带 来 的 最 重要 的 概念 。 我 们 进一步 了 解 了 UDP 协议 。 如 果 已 经 掌握 了 IP 协 议 ， 
那么 UDP 协议 就 没有 任何 困难 可 言 ， 它 只 是 IP 协 议 暴 露 在 传输 层 上 的 接口 。 


不 放弃 (TCP 协 议 与 流通 信 ) 


TCP (Transportation Control Protocol) 协议 与 |IP 协 议 是 一 同 产生 的 。 事 实 上 ， 两 者 最 初 是 一 
个 协议 ， 后 来 才 被 分 拆 成 网 络 层 的 |P 和 传输 层 的 TCP。 我 们 i ， UDP 


协议 是 IP 协 议 在 传输 层 的 " 倪 偶 "， 用 来 实现 数据 包 形 式 的 通信 。 而 TCP 协 议 则 实现 了 " 流 " 形 式 
的 通信 。 
TCP 的 内 容 非 常 丰 富 。 这 一 篇 主要 介绍 TCP 协 议 的 下 面 几 个 方面 : 


1.“ 流 ”通信 的 意义 与 实现 方式 
2， 如何 实现 可 人 靠 传输 
3. 使 用 滑 窗 提高 效率 


bs 
bt 六 9 > 子 /过 


VL 通 喜 


TCP 协 议 是 传输 层 协 议 ， 实 现 的 是 端口 到 端口 (port) 的 通信 。 更 进一步 ，TCP 协 议 虚 拟 了 文 
本 流 (byte stream) 的 通信 。 在 Linux 文 本 流 中 我 们 谈 到 ， 计 算 机 数据 的 本 质 是 有 序 的 0/1 序 列 
(如 果 以 byte 为 单位 ， 就 叫做 文本 流 ) 。 计算 机 的 功能 就 是 储存 和 处 理 文本 流 。CPU + memory + 存 
储 设备 实现 了 文本 流 在 同一 台 计 算 机 内 部 的 加 工 处 理 。 通 过 一 些 ID， 比 如 屏幕 和 键盘 ， 文 本 

流 实现 了 人 机 交互 。 而 进一步 ， 如 果 网 络 通信 可 在 不 同 计算 机 之 间 进 行文 本 流 的 交互 ， 那 么 

我 们 就 和 整个 计算 机 系统 的 数据 处 理 方式 实现 了 对 接 。 


IP 协 议和 UDP 协议 采用 的 是 数据 包 的 方式 传送 ， 后 发 出 的 数据 包 可 能 早 到 ， 我 们 并 不 能 保证 
数据 到 达 的 次 序 。TCP 协 议 确 保 了 数据 到 达 的 顺序 与 文本 流 顺 序 相 符 。 当 计算 机 从 TCP 协 议 
的 接口 读 取 数 据 时 ， 这 些 数据 已 经 是 排列 好 顺序 的 “ 流 ”" 了。 比如 我 们 有 一 个 大 文件 要 从 本 地 主 
机 发 送 到 远程 主机 ， 如 果 是 按照 “ 流 " 接 收 到 的 话 ， 我 们 可 以 一 边 接收 ， 一 边 将 文本 流 存 入 文件 
oo i 我 们 
需要 等 到 所 有 的 数据 到 达 后 ， 进 行 排序 ， 才 能 组 装 成 大 的 文件 。 这 种 情况 下 ， 我 们 不 得 不 使 
用 大 量 的 计算 机 资源 来 存储 已 经 到 达 的 数据 ， 到 了 ， 才 能 开始 处 理 。 


“ 流 " 的 要 点 是 次 序 (order) ， 然 而 实现 这 一 点 并 不 简单 。TCP 协 议 是 基于 IP 协议 的 ， 所 以 最 终 
数据 传送 还 是 以 IP 数 据 包 为 单位 进行 的 。 如 果 一 个 文本 流 很 长 的 话 ， 我 们 不 可 能 将 整个 文本 
流放 入 到 一 个 IP 数 据 包 中 ， 那 样 有 可 能 会 超过 MTU。 所 以 ，TCP 协 议 封装 到 IP 包 的 不 是 整个 
文本 流 ， 而 是 TCP 协 议 所 规定 的 片段 (segment) 。 与 之 前 的 一 个 IP 或 者 UDP 数据 包 类 似 ， 一 
个 TCP 片 段 同样 分 为 头 部 (header) 和 数据 (payload) 两 部 分 (“片段 "这 个 名 字 更 多 是 起 提醒 作用 : 

嘿 ， 这 里 并 不 是 完整 的 文本 流 ) 。 整个 文本 流 按 照 次 序 被 分 成 小 段 ， 而 每 一 段 被 放 入 TCP 片 段 的 数据 
部 分 。 一 个 TCP 片 段 封装 成 的 IP 包 不 超过 整个 IP 接力 路 径 上 的 最 小 MTU， 从 而 避免 令 人 痛苦 
的 碎片 化 (fragmentation) ° 


给 文本 流 分 段 是 在 发 送 主 机 完成 的 ， 而 碎片 化 是 在 网 络 中 的 路 由 器 完成 的 。 路 由 器 要 处 
理 许多 路 的 通信 ， 所 以 相当 繁忙 。 文 本 流 提前 在 发 送 主 机 分 好 段 ， 可 以 避免 在 路 由 器 上 
执行 碎片 化 ， 可 大 大 减 小 网 络 负担 。 


片段 与 编号 


TCP 片 段 的 头 部 (header) 会 存 有 该 片段 的 序列 号 (sequence number) ° 这 样 ， 接收 的 计算 机 
就 可 以 知道 接收 到 的 片段 在 原文 本 流 中 的 顺序 了 ， 也 可 以 知道 自己 下 一 步 需要 接收 哪个 片段 
以 形成 流 。 比 如 已 经 接收 到 了 片段 1， 片 段 2>， 片 段 3， 那 么 接收 主机 就 开始 期 待 片段 4。 如 果 
接收 到 不 符合 顺序 的 数据 包 (比如 片段 9) ， 接 收 方 的 TCP 模 块 可 以 拒绝 接收 ， 从 而 保证 呈现 给 
接收 主机 的 信息 是 符合 次 序 的 “ 流 ”。 


可 靠 性 


片段 编号 这 个 初步 的 想法 并 不 能 解决 我 们 所 有 的 问题 。IP 协 议 是 不 可 靠 的 ， 所 以 IP 数 据 包 可 能 
在 传输 过 程 中 发 生 错 误 或 者 丢失 。 而 IP 传 输 是 "Best Effort" 式 的 ， 如 果 发 生 异 常情 况 ， 我 们 的 
IP 数 据 包 就 会 被 轻易 的 丢弃 掉 。 另 一 方面 ， 如 果 乱 序 (out of order) 片段 到 达 ， 根 据 我 们 上 
面 说 的 ， 接 收 主机 不 会 接收 。 这 样 ， 错 误 片 段 、 丢 失 片 段 和 被 拒 片 段 的 联手 破坏 之 下 ， 接 收 
主机 只 可 能 收 到 一 个 充满 “漏洞 ?的 文本 流 。 


& 请 补 上 漏洞 


TCP 的 补救 方法 是 ， 在 每 收 到 一 个 正确 的 、 符 合 次 序 的 片段 之 后 ， 就 向 发 送 方 (也 就 是 连接 的 另 一 
段 ) 发 送 一 个 特殊 的 TCP 片 段 ， 用 来 知 会 (ACK ， acknowledge) 发 送 方 : 我 已 经 收 到 那个 片 段 

了 。 这 个 特殊 的 TCP 片 段 叫做 ACK 回 复 。 如 果 一 个 片段 序号 为 L 对 应 ACK 回 复 有 回复 号 
L+1， 也 就 是 接收 方 期 待 接收 的 下 一 个 发 送 片 段 的 序号 。 如 果 发 送 方 在 一 定时 间 等 待 之 后 ， 还 
是 没有 收 到 ACK 回 复 ， 那 么 它 推断 之 前 发 送 的 片段 一 定 发 生 了 腊 常 。 so。 

送 (retransmit) 那个 出 现 异 常 的 片段 ， 等 待 ACK 回 复 ， 如 果 还 没有 收 到 ， 那 么 再 重复 发 送 原 
片段 ... 直到 收 到 该 片段 对 应 的 ACK 回 复 (回复 号 为 L+1 的 ACK) 。 


& 终于 收 到 ACK 的 发 送 主 机 ， 泪 流 满面 


当 发 送 方 收 到 ACK 回 复 时 ， 它 看 到 里 面 的 回复 号 为 L+1， 也 就 是 发 送 方 下 一 个 应 该 发 送 的 TCP 
片段 序号 。 发 送 方 推断 出 之 前 的 片段 已 经 被 正确 的 接收 ， 随 后 发 出 L+1 号 片段 。 ACK 回 复 也 有 
可 能 丢失 。 对 于 发 送 方 来 说 ， 这 和 接收 方 拒 绝 发 送 ACK 回 复 是 一 样 的 。 发 送 方 会 重复 发 送 ， 
而 接收 方 接收 到 已 知 会 过 的 片段 ， 推 断 出 ACK 回 复 丢 失 ， 会 重新 发 送 ACK 回 复 。 


通过 ACK 回 复 和 重新 发 送 机 制 ，TCP 协 议 将 片段 传输 变 得 可 靠 。 尽 管 底盘 是 不 可 靠 的 |P 协 
议 ， 但 TCP 协 议 以 一 种 "不 放弃 的 精神 ”， 不 断 尝 试 ， 最 终 成 功 。 (技术 也 可 以 很 励志 ) 


面 对 “ 挫 折 ”，TCP 协 议 的 态度 : never give up 


TCP 协 议和 UDP 协 议 走 了 两 个 极端 。TCP 协 议 复 杂 但 可 靠 ，UDP 协 议 轻 便 但 不 可 靠 。 在 处 理 
异常 的 时 候 ，TCP 极 端 负责 ， 而 UDP 一 副 无 所 谓 的 样子 。 我 们 可 以 顺便 “ 黑 ” 一 下 UDP 协 议 : 


同样 面 对 “ 挫 折 ”，UDP 的 态度 : who cares... 


上 面 的 工作 方式 中 ， 发 送 方 保持 发 送 -> 等 待 ACK-> 发 送 -> 等 待 ACK... 的 单线 工作 方式 ， 这 样 的 
工作 方式 叫做 stop-and-wait。stop-and-wait 虽 然 实 现 了 TCP 通 信 的 可 人 靠 性 ， 但 同时 牺牲 了 网 
络 通信 的 效率 。 在 等 待 ACK 的 时 间 段 内 ， 我 们 的 网 络 都 处 于 闲置 (idle) 状态 。 我 们 希望 有 一 
种 方式 ， 可 以 同时 发 送出 多 个 片段 。 然 而 如 果 同 时 发 出 多 个 片段 ， 那 么 由 于 IP 包 传送 是 无 次 
序 的 3 有 可 能 会 生成 乱 序 片 段 (out-of-order) ， 也 就 是 后 发 出 的 片段 先 到 达 。 在 stop-and- 
wait 的 工作 方式 下 ， 乱 序 片 段 完 全 被 拒绝 ， 这 也 很 不 效率 。 毕 竟 ， 乱 序 片 段 只 是 提前 到 达 的 片 
段 。 我 们 可 以 在 缓存 中 先 存放 它 ， 等 到 它 之 前 的 片段 补充 完毕 ， 再 将 它 缓 在 后 面 。 然 而 ， 如 
果 一 个 乱 序 片段 实在 是 太 过 提前 ( 太 “ 乱 "了 ) ， 该 片段 将 长 时 间 占 用 缓存 。 我 们 需要 一 种 折 中 
的 方法 来 解决 该 问题 : 利用 缓存 保留 一 些 “ 不 那么 乱 ” 的 片段 ， 期 望 能 在 段 时 间 内 补充 上 之 前 的 
片段 ( 暂 不 处 理 ， 但 发 送 相应 的 ACK) ; 对 于 “ 乱 ” 的 比较 厉害 的 片段 ， 则 将 它们 拒绝 (不 处 理 ， 也 不 发 送 对 


应 的 ACK) 。 


滑 窗 (sliding window) 被 同时 应 用 于 接收 方 和 发 送 方 ， 以 解决 以 上 问题 。 发 送 方 和 接收 方 各 
有 一 个 滑 窗 。 当 片段 位 于 滑 窗 中 时 ， 表 示 TCP 正 在 处 理 该 片段 。 滑 窗 中 可 以 有 多 个 片段 ， 也 
就 是 可 以 同时 处 理 多 个 片段 。 滑 窗 越 大 ， 越 大 的 滑 窗 同时 处 理 的 片段 数目 越 多 (当然 ， 计算 机 也 必 


须 分 配 出 更 多 的 缓存 供 滑 窗 使 用 ) 。 
&img 同时 处 理 多 个 片段 


我 们 假设 一 个 可 以 容纳 三 个 片段 的 滑 窗 ， 并 假设 片段 从 左 向 右 排列 。 对 于 发 送 方 来 说 ， 滑 窗 
的 堪 侧 为 已 发 送 并 已 ACK 过 的 片段 序列 ， 滑 窗 右 侧 是 尚未 发 送 的 片段 序列 。 滑 窗 中 的 片段 ( 比 
如 片段 5，6，7) 被 发 送出 去 ， 并 等 待 相应 的 ACK。 如 果 收 到 片段 5 的 ACK， 滑 窗 将 向 右 移动 。 这 
样 ， 新 的 片段 从 右 侧 进入 滑 窗 内 ， 被 发 送出 去 ， 并 进入 等 待 状态 。 在 接收 到 片段 5 的 ACK 之 
前 ， 滑 窗 不 会 移动 ， 即 使 已 经 收 到 了 片段 6 和 7 的 ACK。 这 样 ， 就 保证 了 滑 窗 堪 侧 的 序列 是 已 
经 发 送 的 、 接 收 到 ACK 的 、 符 合 顺序 的 片段 序列 。 

对 于 接收 方 来 说 ， 滑 窗 的 左 侧 是 已 经 正确 收 到 并 ACK 回 复 过 的 片段 (比如 片段 1，2，3，4) ， 也 就 
是 正确 接收 到 的 文本 流 。 滑 窗 中 是 期 望 接收 的 片段 (比如 片段 5，6，7) 。 同 样 ， 如 果 片 段 6，7 
先 到 达 ， 那 么 滑 窗 不 会 移动 。 如 果 片 段 5 先 到 达 ， 那 么 滑 窗 会 向 右 移 动 ， 以 等 待 接收 新 的 片 
段 。 如 果 出 现 滑 窗 之 外 的 片段 ， 比 如 片段 9， 那 么 滑 窗 将 拒绝 接收 。 

下 面 一 个 视频 中 ， 我 尝试 模 拟 可 容纳 三 个 片段 的 滑 窗 (固定 大 小 ) 的 工作 过 程 。 

如 果 视 频 加 载 有 问题 ， 可 点 下 面 链接 : 

http://v.youku.com/v_show/id XNDg1NDUyMDUYy.html 


上 面 的 视频 是 用 Python 和 matplotlib 包 制作 的 。 蓝 色 点 表示 片段 ， 红 色 点 表示 ACK。 为 了 说 明 
乱 序 片段 ， 我 故意 让 片段 和 ACK 的 速度 从 两 个 值 中 随机 选择 。 


可 以 看 到 ， 随 着 滑 窗 的 滑动 ， 越 来 越 多 的 片段 被 正确 的 传送 。 利 用 滑 窗 ， 我 们 一 定 程度 上 实 
现 了 对 乱 序 数据 的 缓存 。 但 是 ， 过 于 乱 序 的 数据 依然 会 被 拒绝 。 我 们 之 前 说 的 stop-and-wait 
的 工作 方式 ， 相 当 于 发 送 方 和 接收 方 的 滑 窗 都 只 能 容纳 一 个 片段 。 


我 们 将 在 以 后 看 到 ，TCP 协 议 有 实时 调整 滑 窗 大 小 的 萌 法 ， 以 实现 最 优 效 率 。 


攻 结 


[Ga 


八 


hee er nt de 
异常 的 时 候 ，TCP 极 端 ， 而 UDP 一 副 无 所 谓 的 样子 。 在 TCP 中， 分 段 和 编号 实现 了 次 
序 ; ACK 和 0 可 靠 性 ; sliding window 则 让 上 面 的 机 制 更 加 有 效率 的 运行 

Never give up， 这 就 是 TCP 协 议 的 态度 。 


这 篇 文章 也 包含 了 我 的 一 个 视频 小 实验 ， 看 看 效果 如 何 ， 欢 迎 大 家 的 反馈 。 


协议 森林 爱 的 传 声 简 (TCP 连 接 ) 


在 TCP 协 议 与 " 流 "通信 中 ， 我 们 概念 性 的 讲解 了 TCP 通 信 的 方式 。 可 以 看 到 ，TCP 通 信 最 重要 
的 特征 是 : 有 序 (ordering) 和 可 靠 (reliable)。 有 序 是 通过 将 文本 流 分 段 并 编号 实现 的 。 可 靠 是 
通过 ACK 回 复 和 重复 发 送 (retransmission) 实 现 的 。 这 一 篇 文章 将 引入 TCP 连 接 (connection) 的 


TCP 连 接 


网 络 层 在 逻辑 上 提供 了 端口 的 概念 。 一 个 IP 地 址 可 以 有 多 个 端口 。 一 个 具体 的 端口 需要 IP 地 址 
和 端口 号 共同 确定 (我 们 记 为 |P:port 的 形式 )。 一 个 连接 为 两 个 IP:port 之 间 建 立 TCP 通 信 。( 一 个 
常用 的 比喻 为 : TCP 连 接 就 像 两 个 人 打 电 话 ，1P 为 总 机 号 码 ，port 为 分 机 号 码 ) 


参与 连接 的 如 果 是 两 台电 脑 ， 那 么 两 台电 脑 操作 系统 的 TCP 模 块 负责 建立 连接 。 每 个 连接 有 
四 个 参数 (两 个 IP， 两 个 端口 )， 来 表明 “ 谁 在 和 谁 通话 *”。 每 台电 脑 都 会 记录 有 这 四 个 参数 ， 以 
确定 是 哪 一 个 连接 。 如 果 这 四 个 参数 完全 相同 ， 则 为 同一 连接 ; 如 果 这 四 个 参数 有 一 个 不 
同 ， 即 为 不 同 的 连接 。 这 意味 着 ， 同 一 个 端口 上 可 以 有 多 个 连接 。 内 核 中 的 TCP 模 块 生成 连 
接 之 后 ， 将 连接 分 配给 进程 使 用 。 

一 个 端口 上 可 以 有 多 个 连接 

TCP 连 接 是 双 工 (duplex) 的 。 在 TCP 协 议 与 " 流 "通信 中 ， 我 们 所 展示 的 TCP 传 输 是 单 向 的 。 双 
向 连接 实际 上 就 是 建立 两 个 方向 的 TCP 传 输 ， 所 以 概念 上 并 不 复杂 。 这 时 ， 连 接 的 每 一 方 都 
需要 两 个 滑 窗 ， 以 分 别处 理发 送 的 文本 流 和 接收 的 文本 流 。 由 于 连接 的 双向 性 ， 我 们 也 要 为 
两 个 方向 的 文本 流 编号 。 这 两 个 文本 流 的 编号 相互 独立 。 为 文本 流 分 段 和 编号 由 发 送 方 来 处 
理 ， 回 复 ACK 则 由 接收 的 一 方 进行 。 


几 YY] 立 ~ 
TCP 上 片段 的 头 部 格式 
在 深入 TCP 连 接 之 前 ， 我 们 需要 对 TCP 片 段 的 头 部 格式 有 一 些 了 解 。 我 们 知道 ，TCP 片 段 分 
为 头 部 和 和 数据。 数据 部 分 为 TCP 览 正 传 输 的 文本 流 数据 。 下 面 为 TCP 片 段 的 头 部 格式 : 
来 自 wikipedia 
先 关注 下 面 几 点 : 


1. 一 个 TCP 头 部 需要 包含 出 发 端口 (source port) 和 目的 地 端口 (destination port)。 这 些 与 IP 
头 中 的 两 个 IP 地 址 共同 确定 了 连接 。 

2， 每 个 TCP 片 段 都 有 序列 号 (sequence number)。 这 些 序 列 号 最 终 将 数据 部 分 的 文本 片段 整 
理 成 为 文本 流 。 


3.，ACK 是 一 位 (bit)。 只 有 ACK 位 设 定 的 时 候 ， 回 复 号 (Acknowledgement number) 才 有 效 。 
ACK 回 复 号 说 明了 接收 方 期 待 接收 的 下 一 个 片段 ， 所 以 ACK 回 复 号 为 最 后 接收 到 的 片段 
序号 加 1。 


很 多 时 候 ，ACK 回 复 " 附 着 "在 发 送 的 数据 片段 中 。TCP 协 议 是 双向 的 。 比 如 A 和 B 两 个 电脑 。 

ACK 回 复 是 接收 方 回 复 给 发 送 方 (比如 A 发 送 给 B ，B 回 复 A)。 但 同时 ，B 也 可 以 是 发 送 方 ，B 
有 可 能 有 数据 发 送 给 A， 所 以 B 就 把 ACK 回 复 附 着 在 它 要 发 送 给 A 的 数据 片段 的 头 部 。 这 样 可 
以 减少 ACK 所 占用 的 交通 流量 。 一 个 片段 可 以 只 包含 ACK 回 复 。 一 个 纯粹 的 ACK 回 复 片 段 不 
传送 文本 流 ， 所 以 不 消耗 序列 号 。 如 果 有 下 一 个 正常 的 数据 片段 ， 它 的 序号 将 与 纯粹 ACK 回 
复 片段 的 序号 相同 。 


(ACK 回 复 还 可 以 “附着 "在 SYN 片 段 和 FIN 片 段 ) 


1. ACK 后 面 还 有 SYN 和 FIN， 它 们 也 各 占据 一 位 (bit)。 我 将 在 后 面 说 明 这 两 位 


连接 的 建立 


在 TCP 协 议 与 " 流 "通信 中 讨论 的 TCP 传 输 需要 一 个 前 提 : TCP 连 接 已 经 建立 。 然 而 ，TCP 连 接 
从 无 到 有 需要 一 个 建立 连接 的 过 程 。 建 立 连 接 的 最 重要 目 是 让 连接 的 双方 交换 初始 序列 号 
(ISN, Initial Sequence Number)。 根 据 TCP 协 议 的 规定 ， 文 本 流 的 第 一 个 片段 的 序列 号 不 能 是 
确定 的 数字 (比如 说 1)。 连 接 的 双方 各 自 随 机 生成 自己 的 ISN， 然 后 再 利用 的 一 定 方式 让 对 方 了 
解 。 这 样 的 规定 是 出 于 TCP 连 接 安 全 考虑 : 如 果 以 一 个 确定 的 数字 作为 初始 的 TCP 序 号 ， 那 
么 其 他 人 很 容易 猜 出 接 下 来 的 序列 号 ， 并 按照 正确 的 序号 发 送 “ 伪 装 "的 TCP 片 段 ， 以 插入 到 文 
本 流 中 。 


ISN 交 换 是 通过 SYN 片 段 实现 的 。SYN 片 段 由 头 部 的 SYN 位 表明 ， 它 的 序列 号 为 发 送 方 的 
ISN。 该 片段 由 连接 的 一 方 首先 发 给 给 另 一 方 ， 我 们 将 发 送 SYN 的 一 方 称 为 客户 (client)， 而 接 
收 SYN 的 一 方 称 为 服务 器 (server)。 我 们 使 用 ISN(c) 表 示 client 一 方 的 |SN， 使 用 ISN(s) 表 示 
server 一 方 的 |SN。 随 后 ， 接 收 到 SYN 的 server 需 要 回复 ACK， 并 发 送出 包含 有 server 的 ISN 的 
SYN 片 段 。 下 图 为 建立 连接 的 过 程 ， 也 就 是 经 典 的 TCP 三 次 握手 (three-way handshaking)。 

两 条 坚 直线 分 别 为 client 和 server 的 时 间 轴 。 每 个 箭头 代表 了 一 次 TCP 片 段 的 单 向 传输 。 


青色 为 纯粹 的 ACK 片 段 。 整 个 过 程 的 本 质 是 双方 互 发 含有 自己 的 ISN 的 SYN 片 段 。 根 据 TCP 传 
输 的 规则 ， 接 收 到 |SN 的 一 方 需要 回复 ACK， 所 以 共计 四 片 信息 在 建立 连接 过 程 中 传输 。 之 所 
以 是 三 次 握手 (而 不 是 四 次 )， 是 因为 server 将 发 送 SYN 和 回复 ACK 合 并 到 一 个 TCP 片 段 中 。 我 
们 以 client 方 为 例 。client 知 道 自 己 的 ISN( 也 就 是 ISN(c))。 建 立 连接 之 后 ， 它 也 知道 了 对 方 的 
ISN(s)。 此 后 ， 如 果 需 要 发 送 文本 流 片 段 ， 则 编号 为 ISN(c) 


。 1, ISN(c) + 2 ...。 如 果 接 收文 本 流 片段 ， 则 期 待 接收 ISN(s) + 1, ISN(s) + 2 .…。 


连接 建立 之 后 ， 连 接 的 双方 就 可 以 按照 TCP 传 输 的 方式 相互 发 送 文本 流 了 。 


一 个 连接 建立 之 后 ， 连 接 两 端的 进程 可 以 利用 该 连接 进行 通信 。 当 连接 的 一 方 觉得 "我 讲 完 
了 ”， 它 可 以 终结 连接 中 发 送 到 对 方 方 向 的 通信 。 ee 
handshaking) 的 方式 终结 ， 连 接 终结 使 用 的 是 特殊 片段 FIN(FIN 位 为 1 的 片段 )。 


我 们 可 以 看 到 ， 连 接 终 结 的 过 程 中 ， 连 接 双 方 也 交换 了 四 片 信息 (两 个 FIN 和 两 个 ACK)。 在 终 
结 连接 的 过 程 中 ， 、 与 ACK 片 段 。 原 因 是 TCP 连 接 允许 单 向 关闭 (half- 
close)。 也 就 是 说 ，TCP 连 接 关 闭 了 一 个 方向 的 传输 ， 成 为 一 个 单 向 连接 (half-duplex)。 第 二 
个 箭头 和 第 三 个 箭头 传递 必须 分 开 ， 才 能 有 空 障 在 开放 的 方向 上 继续 传输 。 如 果 第 二 个 箭头 
和 第 三 个 箭头 合并 在 一 起 ， 那 么 ， 随 着 一 方 关 闭 ， 另 一 方 也 要 被 迫 关闭 。 


第 二 和 第 三 次 握手 之 间 ，server 可 以 继续 单 向 的 发 送 片段 给 client， 但 client 不 能 发 送 数据 片段 
给 server 。 


(上 面 的 终结 从 client 先 发 起 ，TCP 连 接 终结 也 可 以 从 server 先 发 起 。) 


在 Client 发 送出 最 后 的 ACK 回 复 ， 但 该 ACK 可 能 丢失 。Server 如 果 没 有 收 到 ACK， 将 不 断 重 复 
发 送 FIN 片 段 。 所 以 Client 不 能 立即 关闭 ， 它 必须 确认 Server 接 收 到 了 该 ACK。Client 会 在 发 送 
出 ACK 之 后 进入 到 TIME_WAIT 状 态 。Client 会 设置 一 个 计时 器 ， 等 待 2MSL 的 时 间 。 如 果 在 该 
时 间 内 再 次 收 到 FIN， 那 么 Client 会 重 发 ACK 并 再 次 等 待 2MSL。 所 谓 的 2MSL 是 两 倍 的 
MSL(Maximum Segment Lifetime)。MSL 指 一 个 片段 在 网 络 中 最 大 的 存活 时 间 ，2MSL 就 是 一 
个 发 送 和 一 个 回复 所 需 的 最 大 时 间 。 如 果 直 到 2MSL，Client 都 没有 再 次 收 到 FIN， 那 么 Client 
推断 ACK 已 经 被 成 功 接收 ， 则 结束 TCP 连 接 。 


TIME_WAIT State 


法 结 


/ 


CK 


TCP 是 连接 导向 的 协议 ， 与 之 对 应 的 是 像 UDP 这 样 的 非 连 接 导 向 的 协议 。 连 接 能 带 来 更 好 的 
传输 控制 ， 但 也 需要 更 多 人 额外 的 工作 ， 比 如 连接 的 建立 和 终结 。 


我 们 还 初步 了 解 了 TCP 的 头 部 格式 。 应 该 注意 到 ， 许 多 时 候 我 们 将 ACK 片 段 “ 附 着 "在 其 他 片段 
上 。 相 对 于 纯粹 的 ACK 片 段 ， 我 们 这 样 做 节约 了 ACK 所 需 的 流量 。 事 实 上 ， 由 于 ACK 片 段 所 
需 的 ACK 位 和 acknowledge number 区 域 总 是 存在 于 TCP 的 头 部 ， 所 以 附着 ACK 片 段 的 成 本 基 
本 上 等 于 0。 


PP 


魔鬼 细节 (TCP 滑 窗 管 理 ) 


在 TCP 协 议 与 " 流 "通信 中 ， 我 们 建立 了 滑 窗 (sliding window) 的 基本 概念 。 通 过 滑 窗 与 ACK 的 配 
合 ， 我 们 一 方面 实现 了 TCP 传 输 的 可 靠 性 ， 另 一 方面 也 一 定 程度 上 提高 了 效率 。 其 工作 方式 
如 下 面 的 视频 所 示 : 


如 果 视 频 加 载 有 问题 ， 可 点 下 面 链接 : 
http://v.youku.com/v_show/id XNDg1NDUyMD9Uy.html 


然而 ， 之 前 的 解释 只 是 概念 性 的 。TCP 为 了 达到 更 好 的 传输 效率 ， 对 上 面 的 工作 方式 进行 了 
许多 改进 。The devil is in the details. 我 们 需要 深入 到 细节 ， 才 能 看 清楚 TCP 协 议 的 智慧 所 
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系 计 ACK 


在 TCP 连 接 中 ， 我 们 通过 将 ACK 回 复 “ 附 着 "在 其 他 数据 片段 的 方式 ， 减 少 了 ACK 回 复 所 消耗 的 
流量 。 但 这 并 不 是 全 部 的 故事 。TCP 协 议 并 不 是 对 每 个 片段 都 发 送 ACK 回 复 。TCP 协 议 实 际 
采用 I 是 累计 ACK 回 es acknowledgement)。 接 收 方 往 往 利用 一 个 ACK 回 复 来 
知 会 连续 多 个 片段 的 成 功 接 收 。 通 过 累计 ACK， 所 需要 的 ACK 回 复 通常 可 以 降 到 50%。 


如 下 图 所 示 ， 柳 色 为 已 经 接收 的 片段 。 方 框 为 滑 窗 ， 滑 窗 可 容纳 3 个 片段 。 


Receiver 
Waiting for 7 





eg 











Receiver 
ACK 7,8,9 





ACK, ACK=10 


涓 没 接 收 到 片段 7 时 ， 已 接收 到 片段 8，9。 这 样 就 在 滑 窗 中 制造 了 一 个 “ 空 穴 "(hole)。 当 清 
最 终 接收 到 片段 7 时 ， 滑 窗 送 出 一 个 回复 号 为 10 的 ACK 回 复 。 发 送 方 收 到 该 回复 ， 会 意识 
站 ， 片 段 10 之 前 的 片段 已 经 按照 次 序 被 成 功 接收 。 整 个 过 程 中 节约 了 片段 7 和 片段 8 所 需 的 两 


协议 森林 


个 ACK 回 复 。 


此 外 ， 接 收 方 在 接收 到 片断 ， 并 应 该 回复 ACK 的 时 候 ， 会 故意 延迟 一 些 时 间 。 如 果 在 延迟 的 
时 间 里 ， 有 后 续 的 片段 到 达 ， 就 可 以 利用 累计 ACK 来 一 起 回复 了 。 


滑 窗 结构 


在 之 前 的 讨论 中 ， 我 们 以 片段 为 单位 ， 来 衡量 滑 窗 的 大 小 的 。 芮 实 的 滑 窗 是 以 byte 为 单位 表示 
大 小 ， 但 这 并 不 会 对 我 们 之 前 的 讨论 造成 太 大 的 影响 。 


发 送 方 滑 窗 可 以 分 为 下 面 两 个 部 分 。offered window 为 整个 滑 窗 的 大 小 。 





Rd 


接收 方 滑 窗 可 分 为 三 个 部 分 : 





| 一 aaa > 


可 以 看 到 ， 接 收 方 的 滑 窗 相对 于 发 送 方 的 滑 窗 多 了 一 个 Received; ACKed; Not Sent to Proc 的 
部 分 。 接 收 方 接 收 到 的 文本 流 必须 等 待 进程 来 读 取 。 如 果 进 程 正 忙于 做 别 的 事情 ， 那么 这 些 
文本 流 即 使 已 经 正确 接收 ， 还 是 需要 暂时 占用 接收 缓存 。 当 出 现 上 述 占 用 时 ， 滑 窗 的 可 用 部 
分 (也 就 是 图 中 advertised window) 就 会 缩水 。 这 意味 着 接收 方 的 处 理 能 力 下 降 。 如 果 这 个 时 候 
发 送 方 依然 按照 之 前 的 速 座 发 送 数 据 给 接收 方 ， 接 收 方 将 无 力 接 收 这 些 数据 。 


TCP 协 议会 根据 情况 自动 改变 滑 窗 大 小 ， 以 实现 流量 控制 。 流 量 控制 (flow control) 是 指 接收 方 
将 advertised window 的 大 小 通知 给 发 送 方 ， 从 而 指导 发 送 方 修改 offered window 的 大 小 。 接 收 
方 将 该 信息 放 在 TCP 头 部 的 window size 区 域 : 
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发 送 方 在 收 到 window size 的 通知 时 ， 会 调整 自己 滑 窗 的 大 小 ， 让 offered window 和 advertised 
window 相 符 。 这 样 ， 发 送 窗口 变 小 ， 文 本 流 发 送 速 率 降 低 ， 从 而 减少 了 接收 方 的 负担 。 


零 窗口 


advertised window 大 小 有 可 能 变 为 0， 这 意味 着 接收 方 的 接收 能 力 降 为 0。 发 送 方 收 到 大 小 为 0 
的 advertised window 通 知 时 ， 停 止 发 送 。 


过 窗口 


这 


当 接 收 方 经 过 处 理 ， 7 生 可 用 的 advertised window 时 ， 接 收 方 会 通过 纯粹 的 ACK 回 复 来 
通知 发 送 方 ， 让 发 送 方 恢复 发 送 。 然 而 ，ACK 回 复 的 传送 并 不 是 可 人 靠 的 。 如 果 该 ACK 回 复 丢 
失 ， 那 么 TCP 传 输 将 陷入 死 锁 (deadlock) 状 态 。 


为 此 ， 发 送 方 会 在 零 窗 口 后 ， 不 断 探测 接收 方 的 窗口 。 窗 口 探测 (window probe) 时 ， 发 送 方 会 
向 接收 方 发 送 包含 1 byte 文 本 流 的 TCP 片 段 ， 并 等 待 ACK 回 复 ( 该 ACK 回 复 包 含有 window 
size)。 由 于 有 1 byte 的 数据 存在 ， 所 以 该 传输 是 可 靠 的 ， 而 不 用 担心 ACK 回 复 丢失 的 问题 。 如 
果 探 测 结果 显示 窗口 依然 为 0， 发 送 方 会 等 待 更 长 的 时 间 ， 然 后 再 次 进行 窗口 探测 ， 直 到 TCP 
传输 恢复 。 


白狐 窗口 综合 省 


滑 窗 机 制 有 可 能 犯 病 ， 比 如 和 白 交 窗口 综合 症 (Silly Window Syndrome)。 假 设 这 样 一 种 情形 : 
接收 方 宣 布 (advertise) 一 个 ， 小 的 窗口 ， 发 送 方 根据 advertised window， 发 送 一 个 小 的 片段 。 
接收 方 的 小 窗口 被 填 满 ， 经 过 处 理 ， 接 收 方 再 宣布 一 个 小 的 窗口 .…… 这 就 是 “ 白 痪 窗口 综合 
症 ” : TCP 通 信 的 片段 中 包含 的 数据 量 很 小 。 在 这 样 的 情况 下 ，TCP 通 信 的 片段 所 含 的 信息 者 
很 小 ， 网 络 流量 主要 是 TCP 片 段 的 头 部 ， 从 而 造成 流量 的 浪费 (由 于 TCP 头 部 很 大 ， ee 
每 个 TCP 片 段 中 含有 比较 多 的 数据 )。 


如 果 发 送 方 不 断 发 送 小 的 片段 ， 也 会 造成 “ 白 疡 窗口 "。 为 了 解决 这 个 问题 ， 需 要 从 两 方面 入 
手 。TCP 中 有 相关 的 规定 ， 要 求 : 
.接收 方 宣告 的 窗口 必须 达到 一 定 的 尺寸 ， 否 则 等 待 。 
2.， 除了 一 些 特殊 情况 ， 发 送 方 发 送 的 片段 必须 达到 一 定 的 尺寸 ， 否 则 等 待 。 特 殊 情 况 主 要 
是 指 需要 最 小 化 延迟 的 TCP 应 用 (比如 命令 行 互动 ) 。 


长 结 


名 
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累计 ACK 减 少 了 TCP 传 输 过 程 中 所 需 的 ACK 流 量 。 通 过 流量 管理 ，TCP 连 接 两 端的 工作 能 
可 以 匹配 ， 从 而 减少 不 不 要 的 传输 浪费 。 累 计 ACK 和 流量 控制 都 是 TCP 协 议 的 重要 特征 。 


TCP 协 议 相当 复杂 ， 并 充斥 着 各 种 细节 。 然 而 TCP 协 议 又 是 如 此 重要 的 一 个 协议 ， 引 领 风骚 
三 十 年 ， 可 以 说 是 互联 网 的 奇迹 。 这 些 细节 正 是 TCP 协 议 成 功 的 原因 ， 并 值得 我 们 深入 了 
解 。 


涅 巢 (TCP 重 新 发 送 ) 


TCP 协 议 是 一 个 可 靠 的 协议 。 它 通过 重新 发 送 (retransmission) 来 实现 TCP 片 段 传输 的 可 千 
性 。 简 单 的 说 ，TCP 会 不 断 重复 发 送 TCP 上 片段， 直到 片段 被 正确 接收 。 


TCP 片 段 丢失 


路 TCP 关 部 的 checksum 


接收 方 (receiver) 可 以 通过 校 验 TCP 片 段 头 部 中 checksum 区 域 来 检验 TCP 片 段 是 否 出 错 。 我 们 
已 经 接触 过 了 IP 协议 详解 的 checksum 算 法 。TCP 片 段 的 checksum 算 法 与 之 类 似 。IP 协 议 的 
checksum 只 校 验 头 部 ，TCP 片 段 头 部 的 checksum 会 校 验 包 括 IP 头 部 、TCP 头 部 和 TCP 数 据 
在 内 的 整个 序列 ， 确 保 IP 地 址 、 端 口号 和 其 他 相关 信息 正确 。 如 果 TCP 片 段 出 错 ， 接 收 方 可 
以 简单 的 丢弃 改 TCP 片 段 ， 也 就 相当 于 TCP 片 段 丢 失 。 


TCP 片 段 包 衰 在 一 个 IP 包 中 传输 。IP 包 可 能 在 网 络 中 丢失 。 导 致 P 包 丢失 的 原因 可 能 有 很 多 ， 
比如 IP 包 经 过 太 多 的 路 由 器 接力 ， 达 到 hop limit ; 比如 路 由 器 太 过 拥挤 ， 导 致 一 些 |P 包 被 丢 
育 ; 再 比如 路 由 表 (routing table) 没 有 及 时 更 新 ， 导 致 IP 包 无 法 送 达 目的 地 。 


下 面 我 们 要 介绍 两 种 重新 发 送 TCP 片 段 的 机 制 : 超时 重新 发 送 和 快速 重新 发 送 。 


超时 重新 发 送 


我 们 之 前 已 经 简单 介绍 过 重新 发 送 的 机 制 : 当 发 送 方 送出 一 个 TCP 片 段 后 ， 将 开始 计时 ， 等 
待 该 TCP 片 段 的 ACK 回 复 。 如 果 接 收 方正 确 接收 到 符合 次 序 的 片段 ， 接 收 方 会 利用 ACK 片 段 
回复 发 送 方 。 发 送 方 得 到 ACK 回 复 后 ， 继 续 移 动 窗口 ， 发 送 接 下 来 的 TCP 片 段 。 如 果 直 到 计 
时 完成 ， 发 送 方 还 是 没有 收 到 ACK 回 复 ， 那 么 发 送 方 推断 之 前 发 送 的 TCP 片 段 丢失 ， 因 此 重 
新 发 送 之 前 的 TCP 片 段 。 这 个 计时 等 待 的 时 间 叫 做 重新 发 送 超 时 时 间 (RTO, retransmission 
timeout)。 


& RTO : 沙漏 中 沙子 的 多 少 


发 送 方 应 该 在 等 待 多 长 时 间 之 后 重新 发 送 呢 ? 这 是 重新 发 送 的 核心 问题 。 上 述 过 程 实际 上 有 
往返 两 个 方向 : 1. 发 送 片段 从 发 送 方 到 接收 方 的 传输 ，2. ACK 片 段 从 接收 方 到 发 送 方 的 传 

输 。 整 个 过 程 实际 耗费 的 时 间 称 做 往返 时 间 (RTT, round trip time)。 如 果 RTT 是 固定 的 ， 比 如 1 
秒 ， 那 么 我 们 可 以 让 RTO 等 于 RTT。 但 实际 上 ，RTT 的 上 下 浮动 很 大 。 比 如 某 个 时 刻 ， 网 络 中 
有 许多 交通 ， 那 么 RTT 就 增加 。 在 RTT 浮 动 的 情况 下 ， 如 果 我 们 设置 了 过 小 的 RTO， 那 么 TCP 
会 等 待 很 短 的 时 间 之 后 重新 发 送 ， 而 实际 上 之 前 发 送 的 片段 并 没有 丢失 ， 只 是 传输 速度 比较 
慢 而 已 ， 这样， 网 络 中 就 被 重复 注入 TCP 片 段 ， 从 而 浪费 网 络 传 输 资源 。 另 一 方面 ， 如 果 


RTO 时 间 过 长 ， 那 么 当 TCP 片 段 已 经 实际 丢失 的 情况 下 ， 发 送 方 不 能 及 时 重新 发 送 ， 会 造成 
网 络 资源 的 闲置 。 所 以 ，RTO 必 须 符 合 当 前 网 络 的 使 用 状况 。 网 络 状况 越 好 ，RTO 应 该 越 
短 ; 网 络 状 况 越 差 ，RTO 应 该 越 长 。 


& RTT: 往返 时 间 


TCP 协 议 通过 统计 RTT， 来 决定 合理 的 RTO。 发 送 方 可 以 测量 每 一 次 TCP 传 输 的 RTT (从 发 送 
出 数据 片段 开始 ， 到 接收 到 ACK 片 段 为 止 )， 这 样 的 每 次 测量 得 到 的 往返 时 间 ， 叫 做 采样 
RTT(srtt, sampling round trip time)。 建 立 连 接 之 后 ， 每 次 的 srtt 作 为 采样 样本 ， 计 算 平均 值 
(mean) 和 标准 差 (standard deviation)， 并 让 RTO 等 于 srtt 平 均值 加 上 四 倍 的 srtt 标 准 差 。 


RTO = mean + 4 std 
上 述 昔 法 有 多 个 变种 ， 根 据 平 台 不 同 有 所 变化 


平均 值 反 映 了 平均 意义 上 的 RTT， 平 均 往返 时 间 越 大 ，RTO 越 大 。 另 一 方面 ， 标 准 差 越 大 也 
会 影响 RTO。 标 准 差 代 表 了 RTT 样 本 的 离散 程度 。 如 果 RTT 上 下 剧烈 浮动 ， 标 准 差 比较 大 。 
RTT 浮 动 大 ， 说 明 当 前 网 络 状 况 相 对 不 稳定 。 因 此 要 设置 更 长 的 RTO， 以 应 对 不 稳定 的 网 络 
状况 。 


快速 重新 发 送 


我 们 刚才 介绍 了 超时 重新 发 送 的 机 制 : 发 送 方 送出 一 个 TCP 片 段 ， 然 后 开始 等 待 并 计时 ， 如 
果 RTO 时 间 之 后 还 没有 收 到 ACK 回 复 ， 发 送 方 则 重新 发 送 。TCP 协 议 有 可 能 在 计时 完成 之 前 
启动 重新 发 送 ， 也 就 是 利用 快速 重新 发 送 (fast-retransmission)。 快 速 发 送 机 制 如 果 被 启动 ， 
将 打 断 计时 器 的 等 待 ， 直 接 重 新 发 送 TCP 片 段 。 


由 于 IP 包 的 传输 是 无 序 的 ， 所 以 接收 方 有 可 能 先 收 到 后 发 出 的 片段 ， 也 就 是 乱 序 (out-of-orden) 
片段 。 乱 序 片段 的 序号 并 不 等 于 最 近 发 出 的 ACK 回 复 号 。 已 接收 的 文本 流 和 乱 序 片段 之 间 将 

出 现 空洞 (hole)， 也 就 是 等 待 接收 的 空位 。 比 如 已 经 接收 了 正常 片段 5,.6,7， 此 时 又 接收 乱 序 片 
段 9。 这 时 片段 8 依然 空缺 ， 片 段 8 的 位 置 就 是 一 个 空洞 。 


TCP 协 议 规 定 ， 当 接收 方 收 到 乱 序 片段 的 时 候 ， 需 要 重复 发 送 ACK。 比 如 接收 到 乱 序 片段 9 的 
时 候 ， 接 收 方 需 要 回复 ACK。 回 复 号 为 8 (7+1)。 此 后 接收 方 如 果 继 续 收 到 乱 序 片段 (序号 不 是 
8 的 片段 )， 将 再 次 重复 发 送 ACK=8。 当 发 送 方 收 到 3 个 ACK=8 的 回复 时 ， 发 送 方 推断 片段 8 丢 
失 。 即 使 此 时 片段 8 的 计时 器 还 没有 超时 ， 发 送 方 会 打 断 计时 ， 直 接 重新 发 送 片 段 8， 这 就 是 

快速 重新 发 送 机 制 (fast-retransmission)。 


快速 重新 发 送 机 制 利 用 重复 的 ACK 来 提示 空洞 的 存在 。 当 重复 次 数 达 到 阅 值 时 ， 认 为 空洞 对 
应 的 片段 在 网 络 中 丢失 。 快 速 重新 发 送 机 制 提 高 了 检测 丢失 片段 的 效率 ， 往 往 可 以 在 超时 之 
前 探测 到 丢失 片段 ， 并 重复 发 送 丢 失 的 片段 。 


总 结 


CK 


/ 


凤凰 浴 火 重生 。 而 TCP 协 议 利用 重新 发 送 (retransmission) 来 实现 TCP 传 输 的 可 靠 性 。 重 新 发 
送 的 基本 形式 是 超时 重新 发 送 ， 根 据 统计 的 往返 时 间 来 设置 起 时 标准 ; 如 果 超时 ， 则 重新 发 
送 TCP 片 段 。 另 一 方面 ， 快 速 重新 发 送 则 通过 乱 序 片段 的 ACK 来 更 早 的 推断 出 片段 的 丢失 。 


天 下 为 公 (TCP 堵 鹤 控 制 ) 


在 TCP 协 议 中 ， 我 们 使 用 连接 记录 TCP 两 端的 状态 ， 使 用 编号 和 分 段 实 现 了 TCP 传 输 的 有 

序 ， 使 用 advertised window 来 实现 了 发 送 方 和 接收 方 处 理 能 力 的 匹配 ， 并 使 用 重复 发 送 来 实 
现 TCP 传 输 的 可 靠 性 。 我 们 只 需要 将 TCP 片 段 包装 成 |P 包 ， 扔 到 网 络 中 就 可 以 了 。TCP 协 议 
的 相关 模块 会 帮 我 们 处 理 各 种 可 能 出 现 的 问题 (比如 排序 ， 比 如 TCP 片 段 委 失 等 等 )。 最 初 的 
TCP 协 议 就 是 由 上 述 的 几 大 块 构成 的 。 


然而 进入 上 世纪 和 八 十 年 代 ， 网 络 开始 变 的 繁忙 。 许 多 网 络 中 出 现 了 大 量 的 堵塞 (congestion)。 
堵塞 类 似 于 现实 中 的 堵车 。 网 络 被 称 为 “信息 高 速 公路 ”。 汽车 (IP 包 ) 在 网 络 中 行驶 ， 并 经 
过 一 个 一 个 路 口 (路 由 器 )， 直 到 到 达 目 的 地 。 一 个 路 由 器 如 果 过 度 繁 忙 ， 会 丢弃 一 些 I|P 色 
UDP 协议 不 保证 传输 的 可 车 性 ， 所 以 丢失 就 丢失 了 。 而 TCP 协 议 需 要 保证 传输 的 可 靠 性 ， 当 

人 
路 中 ， 原 本 繁忙 的 路 由 器 变 得 更 加 繁忙 ， 更 多 的 |P 包 丢失 。 这 样 就 构成 了 一 个 恶性 循环 。 这 
样 的 情况 被 称 为 堵塞 前 溃 (congestion collapse)。 每 个 发 送 方 为 了 保证 自己 的 发 送 质 量 ， 而 不 
顾及 公共 领域 现状 ， 是 造成 堵塞 崩溃 的 主要 原因 。 当 时 的 网 络 中 高 达 90% 的 传输 资源 可 能 被 
堵塞 崩溃 所 浪费 。 


为 了 解决 这 一 缺陷 ， 从 八 十 年 代 开 始 ，TCP 协 议 中 开始 加 入 堵塞 控制 (congestion control) 的 功 
能 ， 以 避免 堵塞 崩溃 的 出 现 。 多 个 算法 被 提出 并 实施 ， 大 大 改善 了 网 络 的 交通 状况 。 直 到 今 
天 ， 堵 塞 控制 依然 是 互联 网 研究 的 一 个 活路 领域。 


现实 中 ， eae 会 希望 兴建 立交 桥 和 高 架 ， 或 者 布 望 有 一 位 交警 来 琉 导 交 
通 。 而 TCP 协 议 的 堵塞 控制 是 约束 自己 实现 i 当 TCP 的 发 送 方 探测 到 网 络 交 通 拥堵 
et 的 交通 状况 ， 避 免 堵塞 崩溃。 简 言 之 ，TCP 协 
议 规定 了 发 送 方 需 要 遵守 的 "公德 "。 


我 们 先 来 说 明 堵塞 是 如 何 探测 的 。 在 TCP 重 新 发 送 中 ， 我 们 已 经 总 结 了 两 种 推测 TCP 片 段 丢 
失 的 方法 : ACK 超 时 和 重复 ACK。 一 旦 发 送 方 认 为 TCP 片 段 委 失 ， 则 认为 网 络 中 出 现 堵 塞 。 


另 一 方面 ，TCP 发 送 方 是 如 何 控制 发 送 速率 呢 ?TCP 协 议 通 过 控制 滑 窗 (sliding window) 大 小 
来 控制 发 送 速率 。 在 TCP 滑 窗 管 理 中 ， 我 们 已 经 见 到 了 一 个 窗口 限制 ， 就 是 advertised 
Window size， 以 实现 TCP 流 量 控制 。TCP 还 会 维护 一 个 堵塞 窗口 大 小 ， 以 根据 网 络 状 况 来 调 
整 渭 窗 大 小 。 丨 实 滑 窗 大 小 取 这 两 个 滑 窗 限制 的 最 小 值 ， 从 而 同时 满足 两 个 限制 (流量 控制 和 
堵塞 控制 )。 


advertised window vs congestion window 


我 们 将 专注 于 堵塞 窗口 。(Hulk，smashl) 


塞 窗口 (congestion window) 总 是 处 于 两 种 状态 的 一 个 。 这 两 种 状态 是 : 慢 启 动 (slow start) 和 
塞 规避 (congestion avoidance)。 


lf packet lost 
Then ssthresh = 0.5*cwnd 


I cwnd > ssthresh 












Congestion Avoidance: 
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lf packet lost 
Then ssthresh = 0.5*cwnd 


上 图 是 概念 性 的 。 实 际 的 实施 要 比 上 图 复杂 ， 而 且 根 据 算法 不 同 会 有 不 同 的 版 本 。cwnd 代 表 
堵塞 窗口 大 小 。 我 们 以 片段 的 个 数 为 单位 ， 来 表示 cwnd 的 大 小 (同样 是 概念 性 的 ) 。 


堵塞 窗口 从 慢 局 动 的 状态 开始 。 慢 启动 的 特点 是 初始 速率 低 ， 但 速率 不 断 倍 增 。 每 次 进入 到 
慢 启 动 状态 时 ，cwnd 都 需要 重 置 为 初始 值 1。 发 送 方 每 接收 到 一 个 正确 的 ACK， 就 会 将 堵塞 
窗口 增加 1， 从 而 实现 速 座 的 倍增 (由 于 累计 ACK， 速 率 增 长 可 能 会 小 于 倍增 )。 


当 堵 塞 窗口 的 大 小 达到 某 个 阅 值 ssthresh 时 ，congestion 进 入 到 堵塞 规避 (congestion 
avoidance) 状 态 。 发 送 速 率 会 继续 增长 。 发 送 方 在 每 个 窗户 所 有 片段 成 功 传 输 后 ， 将 窗口 尺寸 
增加 1( 实 际 上 就 是 每 个 RTT 增 加 1)。 所 以 在 堵塞 规避 状态 下 ，cwnd 线 性 增长 ， 增 长 速率 慢 。 


如 果 在 堵塞 规避 下 有 片段 丢失 ， 重 新 回 到 慢 启 动 状态 ， 并 将 ssthresh 更 新 为 cwnd 的 一 半 。 


我 们 看 到 ，sshthresh 是 慢 启 动 到 堵塞 规避 的 切换 点 。 而 片段 丢失 是 堵塞 规避 到 慢 启 动 的 切换 
点 。 一 开始 sshthresh 的 值 一 般 比 较 大 ， 所 以 慢 局 动 可 能 在 切换 成 堵塞 规避 之 前 就 丢失 片段 。 
这 种 情况 下 ， 慢 启动 会 重新 开始 ， 而 ssthresh 更 新 为 cwnd 的 一 半 。 

总 的 来 说 ， 发 送 速 率 总 是 在 增长 。 如 果 片 段 丢失 ， 则 重 置 速 府 为 1， 并 快速 增长 。 增 长 到 一 定 
程度 ， 则 进入 到 慢性 增长 。 快 速 增长 和 慢性 增长 的 切换 点 (sshthred) 会 随 着 网 络 状况 ( 何 时 出 现 
片段 委 失 ) 更 新 。 通 过 上 面 的 机 制 ， 让 发 送 速率 处 于 动态 平衡 ， 不 断 的 尝试 更 大 值 。 初 始 时 增 
长 块 ， 而 接近 饱和 时 增长 慢 。 但 一 旦 尝试 过 度 ， 则 迅速 重 置 ， 以 免 造 成 网 络 负担 。 


这 结 


Ex 


八 


阻塞 控制 有 效 的 提高 了 互联 网 的 利用 率 。 阻 塞 控制 的 算法 多 种 多 样 ， 并 且 依然 不 完善 。 一 个 
常见 的 问题 是 cwnd 在 接近 饱和 时 线性 增长 ， 因 此 对 新 增 的 网 络 带宽 不 敏感 。 


互联 网 利用 "公德 "来 实现 效率 。" 公 德 "和 效率 似乎 可 以 并 存 。 


到 现在 为 止 ，TCP 协 议 的 介绍 就 可 以 告 一 段落 了 。 可 以 回想 一 下 TCP 的 几 大 模块 : 分 段 与 
流 ， 滑 窗 ， 连 接 ， 流 量 控制 ， 重 新 发 送 ， 堵 塞 控制 。 


协议 森林 13 9527 (DNS 协议 ) 


在 周星驰 的 电影 《唐伯虎 点 秋香 》 中 ， 周 星 驰 饰演 的 主角 一 进入 华 府 ， 就 被 强制 增加 了 一 个 
代号 9527。 从 此 ， 华 府 的 人 开始 称呼 主角 为 9527， 而 不 是 他 的 姓名 。 


域名 (domain name) 是 IP 地 址 的 代号 。 域 名 通常 是 由 字符 构成 的 。 对 于 人 类 来 说 ， 字 符 构 成 的 
域名 ， 比 如 www.yahoo.com， 要 比 纯粹 数字 构成 的 IP 地 址 (106.10.170.118) 容 易 记 忆 。 域 名 解 
析 系 统 (DNS, domain name system) 就 负责 将 域名 ee 对 应 的 IP 地 址 。 在 DNS 的 帮助 下 ， 我 
们 可 以 在 浏览 器 的 地 址 栏 输入 域名 ， 而 不 是 |P 地 址 。 这 大 大 减轻 了 互联 网 用 户 的 记忆 负担 。 
另 一 方面 ， 处 于 维护 和 运营 的 原因 ， 一 些 网 站 可 能 会 变更 |P 地 址 。 这 些 网 站 可 以 更 改 DNS 中 
的 对 应 关系 ， 从 而 保持 域名 不 变 ， 而 IP 地 址 更 新 。 由 于 大 部 分 用 户 记 录 的 都 是 域名 ， 这 样 就 
可 以 降低 IP 变 更 带 来 的 影响 。 


从 机 器 和 技术 的 角度 上 来 说 ， 域 名 并 不 是 必须 的 。 但 Internet 是 由 机 器 和 用 户 共 同 构成 的 。 监 
于 DNS 对 用 户 的 巨大 帮助 ，DNS 已 经 被 当 作 TCP/IP 套 装 不 可 或 缺 的 一 个 组 成 部 分 。 


DNS 服务 器 


域名 和 IP 地 址 的 对 应 关系 存储 在 DNS 服务 器 (DNS server) 中 。 所 谓 的 DNS 服务 器 ， 是 指 在 网 
ee ed Pe edt 都 有 自己 的 IP 地 址 ， 并 使 用 DNS 协议 
(DNS protocol) 进 行 通信 。DNS 协 议 主要 基于 UDP ， 有 是 应 用 层 协 议 (这 也 是 我 们 见 到 的 第 一 个 
应 用 层 协 议 ) 。 


DNS 服务 器 构成 一 个 分 级 (hierarchical) 的 树 状 体系 。 上 图 中 ， 每 个 节点 (node) 为 一 个 DNS 服务 
器 ， 每 个 节点 都 有 自己 的 IP 地 址 。 树 的 顶端 为 用 户 电脑 出 口 处 的 DNS 服务 器 。 在 Linux 下 ， 可 
以 使 用 cat /etc/resolv.conf， 在 Windows 下 ， 可 以 使 用 ipconfig /all， 来 查询 出 口 DNS 服 务 器 。 
树 的 末端 是 站 正 的 域名 /IP 对 应 关系 记录 。 一 次 DNS 查 询 就 是 从 树 的 顶端 节点 出 发 ， 最 终 找到 
相应 末端 记录 的 过 程 。 


中 间 节 点 根据 域名 的 构成 ， 将 DNS 查询 引导 向 下 一 级 的 服务 器 。 比 如 说 一 个 域名 
cs.berkeley.edu，DNS 解 析 会 将 域名 分 割 为 cs, berkeley edu， 然 后 按照 相反 的 顺序 查询 (edu， 
berkeley cs)。 出 口 DNS 首 先 根据 edu， 将 查询 指向 下 一 层 的 edU 节 点 。 然 后 edu 节 点 根据 
berkeley， 将 查询 指向 下 一 层 的 berkeley 节 点 。 这 侣 berkeley 服 务 器 上 存储 有 cs.berkeley.edu 
的 |P 地 址 。 所 以 ， 中 间 节 点 不 断 重 新 定向 ， 并 将 我 们 引导 到 正确 的 记录 。 


在 整个 DNS 查 询 过 程 中 ， 无 论 是 重新 定向 还 是 最 终 取 得 对 应 关系 ， 都 是 用 户 计算 机 和 DNS 服 
务 器 使 用 DNS 协议 通 NS 0 层 的 DNS 服 务 器 建 
立 通 信 。 用 户 计算 机 经 过 递归 查询 ， 最 终 和 末端 节点 通信 ， 并 获得 IP 地址 。 


来 自 wikipedia 


用 户 计算 机 的 操作 系统 中 的 域名 解析 模块 (DNS Resolver) 负 责 域名 解析 的 相关 工作 。 任 何 一 
个 应 用 程序 (邮件 ， 浏 览 器 ) 都 可 以 通过 调用 该 模块 来 进行 域名 解析 。 


并 不 是 每 次 域名 解析 都 要 完整 的 经 历 解析 过 程 O DNS Resolver 通 常 有 DNS 缓存 (cache) ， 用 来 
记录 最 近 使 用 和 查询 的 域名 /IP 关 系 。 在 进行 DNS 查 询 之 前 ， 计 算 机 会 先 查 询 cache 中 是 否 有 
相 关 记 录 。 这 样 9 重复 使 用 的 域名 就 不 用 总 要 经 过 整个 递归 查询 过 程 ， 


来 自 wikipedia 


有 反 向 DNS 


上 面 的 DNS 查 询 均 为 正 向 DNS 查 询 : 已 经 知道 域名 ， 想 要 查询 对 应 |P。 而 反 向 DNS(reverse 
DNS) 是 已 经 知道 IP 的 前 提 下 ， 想 要 查询 城 名。 反 向 DNS 也 是 采用 分 层 查 询 方式 ， 对 于 一 个 IP 
地 址 (比如 106.10.170.118)， 依 次 查询 in-addr.arpa 节 点 (如 果 是 |Pv6， 则 为 ip6.arpa 节 点 )，106 
节点 ，10 节 点 ，170 节 点 ， 并 在 该 节点 获得 106.10.170.118 对 应 的 域名 。 


实例 


下 面 的 视频 来 自 youtube， 我 觉得 它 很 生动 的 解释 了 DNS 的 工作 过 程 。 
如 果 不 能 打开 ， 请 访问 : http://v.youku.com/v_show/id_XNTAwNDY2NjYw.html 


很 棒 的 视频 ， 静 静 享 受 吧 。 


先生 ， 要 点 单 吗 ? (HTTP 协 议 概览 ) 


我 们 在 TCP 流 通信 中 说 明了 ，TCP 协 议 实现 了 数据 流 的 传输 。 然 而 ， 在 实践 中 发 现 ， 人 们 往 
往 习 惯 以 文件 为 单位 传输 资源 ， 比 如 文本 文件 ， 图 像 文件 ， 超 文本 文档 (hypertext 
document)。 超 文本 文档 中 包含 有 超 链接 ， 指 向 其 他 的 资源 。 超 文本 文档 是 万 维 网 (World 
Wide Web， 即 www) 的 基础 。 

HTTP 协 议 是 应 用 层 协 议 ， 它 随 着 万 维 网 发 展 起 来 。HTTP 协 议 最 初 只 是 一 套 实践 标准 。 其 本 
质 目的 是 ， 如 何在 万 维 网 的 网 络 环境 下 ， 更 好 的 使 用 TCP 协 议 ( 尽 管 HTTP 协 议 也 可 以 用 UDP 
协议 作为 底层 ， 但 绝 大 部 分 都 是 基于 TCP 协 议 )， 以 实现 文件 ， 特 别 是 超 文本 文件 的 传输 。 
早期 的 HTTP 协 议 主 要 是 传输 静态 文件 ， 也 就 是 存储 在 服务 器 上 的 文件 。 随 着 万 维 网 的 发 展 ， 
HTTP 协 议 被 用 于 传输 “动态 文件 "， 这 样 的 文件 是 服务 器 上 的 程序 根据 HTTP 请 求 即 时 生成 的 文 
件 。 我 们 将 HTTP 的 传输 对 象 统称 为 资源 (resource)。 


点 单 


HTTP 实 现 的 是 资源 的 订购 和 传送 。 其 工作 方式 类 似 于 快餐 点 单 。 


。 请 求 (request): 顾客 向 服务 员 提出 请 求 : “来 个 鸡腿 汉堡 "。 
。 回复 (response): 服 务 员 根据 情况 ， 回 应 顾客 的 请 求 


根据 情况 的 不 同 ， 服 务 员 的 回应 可 能 


e@ 服务 员 准 备 鸡腿 汉堡 ， 将 鸡腿 汉堡 交 给 顾客 。 (一 切 OK ) 
e@ 服务 员 发 现 自己 只 是 个 甜品 站 。 他 让 顾客 前 往 正 式 柜台 点 单 。 (重新 定向 ) 
。 服务 员 告 诉 顾客 鸡腿 汉堡 没有 了 。( 无 法 找到 ) 


交易 结束 后 ， 服 务 员 就 将 刚才 的 交易 抛 到 脑 后 ， 准 备 服 务 下 一 位 顾客 。 


格式 


HTTP 协 议 的 通信 是 一 次 request-responce 交 流 。 客 户 端 (guest) 向 服务 器 发 出 请 求 (request) ， 
服务 器 (serven) 回 复 (response) 客 户 端 。 


GET /index.html HTTP/1.1 


Host: www.example.com 2 
request 
response 

HTTP/1.1 200 OK 

content-type: text/plain See 





content-length; 12 
Hello World! 


HTTP 协 议 规定 了 请 求 和 回复 需要 遵循 的 格式 。 请 求 和 回复 需要 满足 下 面 的 格式 : 


起 始 行 (start line) 
头 信 息 (headers) 


主体 (entity body) 


起 始 行 只 有 一 行 。 包含 了 请 求 /回复 最 重要 的 信息 。 。 请求 的 起 始 行 表示 (顾客 )* 想 要 什么 ”。 回 
复 的 起 始 和 2 


头 信息 可 以 有 多 行 。 每 一 行 是 一 对 键 值 对 (key-value pair)， 比 如 : 


Content-type: text/plain 它 表 示 ， 包 含有 一 个 名 为 Content-type 的 参数 ， 该 参数 的 值 为 
text/plain 。 I 。 请 求 的 头 信 息 对 服务 器 有 指导 意义 (好 像 在 菜单 上 注 明 : 
鸡腿 不 要 辣 )。 回 复 的 头 信息 则 是 提示 客户 端 〈《 比 如 ， 在 盒子 上 注 明 : 小 心 次 ) 


主体 部 分 包含 了 具体 的 资源 。 上 图 的 请 求 中 并 没有 主体 ， 因 为 我 们 只 是 在 下 单 ， 而 不 用 该 后 
局 送 什么 东西 (请 求 是 可 以 有 主体 内 容 的 )。 回 复 中 包含 的 主体 是 一 段 文本 文字 (Hello 
World!)。 这 段 文本 文字 正 是 顾客 所 期 竺 的， 鸡腿 汉堡 。 


请 来 


我 们 深入 一 些 细节 。 先 来 看 一 下 请 求 : 


GET /index.html HTTP/1.1 
Host: www.example.com 


在 起 始 行 中 ， 有 三 段 信息 


e GET 方法 。 用 于 说 明 想 要 服务 器 执行 的 操作 。 
e /index.html 资源 的 路 径 。 这 里 指向 服务 器 上 的 index.html 文 件 。 
e HTTP/1.1 协议 的 版 本 。HTTP 第 一 个 广泛 使 用 的 版 本 是 1.0， 当 前 版 本 为 1.1。 


早期 的 HTTP 协 议 只 有 GET 方 法 。 遵 从 HTTP 协 议 ， 服 务 器 接收 到 GET 请 求 后 ， 会 将 特定 资源 
传送 给 客户 。 这 类 似 于 客户 点 单 ， 并 获得 汉堡 的 过 程 。 使 用 GET 方 法 时 ， 是 客户 向 服务 器 索 
取 资 源 ， 所 以 请 求 往 往 没 有 主体 部 分 。 

GET 方 法 也 可 以 用 于 传输 一 些 不 重要 的 数据 。 它 是 通过 改写 URL 的 方式 实现 的 。GET 的 数据 
利用 URL? 变 量 名 三 变量 值 的 方法 传输 。 比 如 向 http://127.0.0.1 发 送 一 个 变量 “q”， 它 的 值 

为 “a"。 那 么 ， 实 际 的 URL 为 http://127.0.0.1?gq=a。 服 务 器 收 到 请 求 后 ， 就 可 以 知道 "dgq" 的 值 
GET 方 法 之 外 ， 最 常用 的 是 POST 方法 。 它 用 于 从 客户 端 向 服务 器 提交 数据 。 使 用 POST 方法 
时 ，URL 不 再 被 改写 。 数 据 位 于 http 请 求 的 主体 。POST 方 法 最 用 于 提交 HTML 的 form 数 据 。 
服务 器 往往 会 对 POST 方法 提交 的 数据 进行 一 定 的 处 理 ， 比 如 存 入 服务 器 数据 库 。 

样 例 请 求 中 有 一 行头 信息 。 该 头 信息 的 名 字 是 Host。HTTP 的 请 求 必 须 有 Host 头 信息 ， 用 于 说 
明 服 务 器 的 地 址 和 端口 。HTTP 协 议 的 软 认 端口 是 80， 如 果 在 HOST 中 没有 说 明 端口 ， 那 么 将 
默认 采取 该 端口 。 在 该 例子 中 ， 服 务 器 的 域名 为 www.example.com， 端 口 为 80。 域 名 将 通过 
DNS 服 务 器 转换 为 |P 地 址 ， 从 而 确定 服务 器 在 互联 网 上 的 地 址 。 


参看 |P 地 址 与 TCP 端 口 


人 
回 及 
服务 器 在 接收 到 请 求 之 后 ， 会 根据 程序 ， 生 成 对 应 于 该 请 求 的 回复 ， 比 如 


HTTP/1.1 200 OK 
Content-type: text/plain 
Content-length: 12 


Hello World! 


回复 的 起 始 行 同样 包含 三 段 信息 


e HTTP/1.1 协议 版 本 

e 200 状态 码 (status code)。 

。 OK 状态 描述 
OK 是 对 状态 码 200 的 文字 描述 ， 它 只 是 为 了 便于 人 类 的 阅读 。 电 脑 只 关心 三 位 的 状态 码 
(status code)， 即 这 里 的 200。200 表 示 一 切 OK， 资 源 正 常 返回 。 状 态 码 代表 了 服务 器 回应 动 
作 的 类 型 。 
其 它 常 见 的 状态 码 还 有 : 

e。 302， 重 新 定向 (redirect): 我 这 里 没有 你 想 要 的 资源 ， 但 我 知道 另 一 个 地 方 XXX 有 ， 你 可 以 

去 那里 找 。 


。 404， 无 法 找到 (not found): 我 找 不 到 你 想 要 的 资源 ， 无 能 为 力 。 (重新 定向 时 ， 客 户 端 可 
以 根据 302 的 建议 前 往 xxX 寻 找 资源 ， 也 可 以 忽略 该 建议 。) 


Content-type 说 明了 主体 所 包含 的 资源 的 类 型 。 根 据 类 型 的 不 同 ， 客 户 端 可 以 启动 不 同 的 处 理 
程序 (比如 显示 图 像 文件 ， 播 放声 音 文件 等 等 )。 下 面 是 一 些 常见 的 资源 


。 text/plain 普通 文本 
text/html HTML 文 本 
。 image/jpeg jpeg 图 片 


。 image/gif gif 图 片 
Content-length 说 明了 主体 部 分 的 长 度 ， 以 字 节 (byte) 为 单位 。 
回应 的 主体 部 分 为 一 段 普通 文本 ， 即 

Hello World! 
无 状态 


根据 早期 的 HTTP 协 议 ， 每 次 request-reponse 时 ， 都 要 重新 建立 TCP 连 接 。TCP 连 接 每 次 都 重 
新 建立 ， 所 以 服务 器 无 法 知道 上 次 请 求 和 本 次 请 求 是 否 来 自 于 同一 个 客户 端 。 因 此 ，HTTP 通 
言 是 无 状态 (stateless) 的 。 服 务 器 认为 每 次 请 求 都 是 一 个 全 新 的 请 求 ， 无 论 该 请 求 是 否 来 自 同 
一 地 址 。 


想象 高 级 餐厅 和 快餐 店 。 高 级 餐厅 会 知道 客人 所 在 的 位 置 ， 如 果 新 增 点 单 ， 那 么 服务 员 知道 
这 和 上 一 单 同 一 桌 。 而 在 快餐 店 中 ， 不 好 意思 ， 服 务 员 并 不 记录 客人 的 特征 。 想 再 次 点 单 ? 
请 重新 排队 ...... 


随 着 HTTP 协 议 的 发 展 ，HTTP 协 议 允许 TCP 连 接 复 用 ， 以 节省 建立 连接 所 耗费 的 时 间 。 但 
HTTP 协 议 依然 保持 无 状态 的 特性 。 


区 结 


名 


/ 


HTTP 协 议 实 现 了 万 维 网 上 的 资源 传输 ， 采 用 request-response 的 工作 方式 。GET，POST 


无 状态 


协议 森林 16 小 闫 的 采 号 《DHCP 协议 ) 


作者 : Vamei 出 处 : http://www.cnblogs.com/vamei 转载 请 先 与 我 联系 。 
DHCP 协 议 用 于 动态 的 配置 电脑 的 网 络 相 关 参 数 ， 如 主机 的 |P 地 址 ， 路 由 器 出 口 地 址 、DNS 域 
名 服务 器 地 址 等 。 一 台电 脑 只 要 接 上 网 ， 就 可 以 通过 DHCP 协 议 获得 相关 配置 ， 从 而 顺利 的 畅 
游 网 络 。 
网 络 配置 
电脑 刚刚 接 上 网 络 时 ， 像 一 个 走 入 一 家 新 餐厅 的 食客 ， 不 免 会 有 很 多 疑惑 : 
(我 该 坐 在 哪里 9， 
“我 怎么 点 菜 ?” 


“我 该 如 何 结账 ?了 ” 





初 入 大 饭店 


如 果 顾 客 的 问题 长 时 间 得 不 到 解答 ， 那 么 餐厅 很 可 能 失去 这 位 客人 人。 于是， 餐厅 往往 会 雇 一 
些 服 务 员 。 他 们 可 以 把 客人 引导 到 空闲 的 座位 ， 并 告诉 顾客 如 何 点 餐 、 如 何 结账 等 。 同 样 ， 
在 网 络 通信 中 ， 一 台电 脑 需要 设置 自己 的 |P 地 址 等 网 络 参 数 。 可 对 于 电脑 用 户 来 说 ， 这 些 设 
置 太 过 复杂 。 幸 好 ，DHCP 协 议 可 以 解决 这 一 让 人 头痛 的 问题 。 


DHCP 协 议 全 称 为 “动态 主机 设置 协议 ”(Dynamic Host Configuration Protocol) 。 通 常 来 说 ， 
普通 电脑 中 都 内 置 有 DHCP 客 户 端 模块 。 电 脑 接 上 网 络 后 ，DHCP 客 户 端 发 现 新 连通 的 网 络 ， 
会 在 该 网 络 上 找 DHCP 服 务 器 。DHCP 服 务 器 将 给 电脑 提供 合理 的 网 络 配置 ， 并 把 设置 信息 传 


回 本 机 。 所 谓 的 DHCP 服 务 器 ， 其 实 就 是 一 些 运行 有 DHCP 服 务 器 端 软件 的 特殊 电脑 。 他 们 像 
等 候 在 网 络 上 的 服务 员 ， 为 新 来 的 顾客 排忧解难 。 本 机 和 DHCP 服 务 器 之 间 的 通信 ， 都 是 通过 
DHCP 协 议 进 行 的 。 


其 实在 网 络 诞生 初期 ， 就 有 了 用 一 台 服 务 器 为 网 络 上 的 电脑 配置 参数 的 做 法 。 最 早 的 一 个 协 
议 叫 BOOTP (Bootstrap Protocol) ， 主 要 用 于 开机 配置 。 计 算 机 开机 时 需要 很 多 配置 参数 。 
对 于 没有 磁 瘟 的 计算 机 来 说 ， 它 无 法 获得 这 些 参数 ， 但 可 以 通过 BOOTP 从 网 络 上 的 其 他 设备 
上 获得 。DHCP 大 体 上 继承 了 BOOTP 的 工作 方式 ， 但 在 细节 上 进行 了 改进 。 我 们 将 在 以 后 看 
到 。 


地 址 分 配 


服务 员 最 重要 的 任务 是 为 客人 找 卒 位。 类似 的 ，DHCP 服 务 器 的 首要 任务 是 分 配 IP 地 址 。 分 配 
的 I|P 地 址 要 符合 以 下 原则 : 


1， 地 址 合法 ， 即 对 应 该 局 域 网 的 |P 地 址 和 子 网 撼 码 。 
2， 地址 空闲 ， 同 一 网 络 下 没有 其 他 设备 使 用 该 地 址 。 


DHCP 服 务 器 上 存 有 一 个 地 址 池 ， 里 面 是 可 用 的 I|P 地 址 ， 相 当 于 服务 员 手 中 的 空闲 桌 号 列表 。 
当 新 客人 出 现时 ，DHCP 服 务 器 就 会 从 地 址 池 中 取出 一 个 I|P 地 址 分 配给 客人 。 此 外 ， 服 务 器 还 
会 说 明 |P 地 址 的 占用 时 间 ， 也 就 是 租 期 : 


“先生 ， 请 注意 您 的 用 和 餐 时 间 为 1 个 小 时 ” 


当然 ， 主 机 使 用 网 络 的 时 间 可 能 超过 租 期 。 如 果 主 机 在 租 期 到 时 都 没有 联系 DHCP 服 务 器 ， 那 
么 DHCP 服 务 器 会 收回 IP 地 址 ， 再 分 配给 其 他 主机 。 可 如 果 主 机 想 继续 使 用 IP 地 址 ， 就 要 在 中 
途 申 请 延长 租 期 。 收 到 申请 的 DHCP 服 务 器 通常 会 答应 主机 的 请 求 ， 允 许 它 继续 使 用 现 有 IP 地 
址 。 但 少数 情况 下 ， 服 务 器 会 要 求 主机 更 换 |P 地 址 。 如 果 主 机 联系 不 上 DHCP 服 务 器 ， 那 么 它 
必须 立即 停止 使 用 IP 地 址 ， 重 启 寻找 DHCP 服 务 器 的 过 程 。 


有 了 动态 分 配 ，DHCP 服 务 器 不 但 简化 了 网 络 配置 过 程 ， 还 可 以 有 效 利 用 IP 地 址 资源 。 例 如 一 
个 咖啡 馆 的 Wifi 路 由 允许 200 台 设备 接 入 。 咖 啡 馆 每 天 进出 的 客人 很 多 。 如 果 每 个 客人 都 要 求 
一 个 不 一 样 的 IP 地 址 的 话 ， 所 需 地 址 会 远 远 超过 200 台 。 而 通过 动态 的 方式 ，200 个 IP 地 址 不 
断 回 收 使 用 ， 完 全 可 以 满足 客人 的 需要 。 有 时 ，DHCP 服 务 器 会 预 留 一 些 地 址 给 特定 MAC 地 
址 的 设备 使 用 。 这 就 好 像 餐 厅 给 贵宾 预 留 座 位 ， 不 允许 其 他 客人 坐 。 这 样 的 地 址 通常 会 分 配 
给 打印 机 、 传 站 机 等 特殊 设备 。 由 于 IP 地 址 国定 ， 用 户 可 以 方便 的 通过 IP 地 址 找到 它们 。 


通信 过 程 


DHCP 协 议 的 底层 是 UDP 协议 。 我 们 知道 ， 网 络 上 的 点 对 点 沟通 需要 有 IP 地 址 。 但 新 接 入 网 络 
的 客户 机 正 是 想 通 过 DHCP 通 信 来 获得 |P 地 址 。 这 简直 成 了 “ 鸡 生 蛋 、 蛋 生 鸡 "的 死胡同 。 幸 
好 ， 除 了 点 对 点 通信 ，UDP 协 议 还 允许 广播 通信 。 把 UDP 数据 包 发 送 到 网 络 的 广播 地 址 ， 网 
络 上 的 每 个 设备 都 能 收 到 。 因 此 ，DHCP 通 信 主 要 靠 这 种 广播 的 形式 进行 。 


DHCP 通 信 分 为 四 步 : 
1.Discovery : 客户 机 发 广播 ， 搜 寻 DHCP 服 务 器 。 
2. Offer : DHCP 服 务 器 发 出 邀请 ， 提 供 一 个 可 用 的 IP 地 址 。 
3，Request : 客户 机 正式 请 求 使 用 该 IP 地 址 。 
4. Acknowledge : DHCP 服 务 器 确认 ， 并 提供 其 他 配置 参数 。 


client server 


<— auul] 





每 一 步 的 通信 内 容 都 放 在 一 个 符合 DHCP 格 式 的 数据 包 中 。 数 据 包 中 可 以 包括 客户 机 IP 地 址 、 
服务 器 IP 地 址 、 客 户 的 硬件 MAC 编 号 等 字段 ， 还 能 附加 多 条 网 络 设置 参数 。 当 某 些 信息 未 知 
时 ， 如 客户 机 的 IP 地 址 ， 相 应 的 字段 可 以 填 成 0。 


我 们 可 以 再 次 用 餐厅 来 类 比 通信 过 程 : 
客人 老 张 大 喊 : “服务员 ， 我 是 老 张 ， 给 我 找 张 桌子 喘 ?” 
服务 员 小 美 回 喊 :“ 我 是 服务 员 小 美 。 老 张 你 坐 3 号 束 行 吗 ?” 
老 张 觉得 3 号 桌 不 错 ， 又 喊 了 一 嗓子 ，" 这 桌子 行 ， 老 张 我 就 坐 在 这 里 了 啊 。” 


小 美 回复 ，“ 成 啊 。 记 得 用 餐 时 间 是 一 个 小 时 哟 。” 
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服务 员 小 美 


经 过 这 一 系列 的 DHCP 通 信 ， 客 户 机 获得 了 自己 的 I|P 地 址 ， 也 记 下 了 租 期 时 间 。 为 了 防止 
DHCP 服 务 器 不 靠 谱 ， 客 户 机 通常 还 会 探测 一 下 网 络 ， 以 免 该 IP 已 经 被 其 他 设备 占用 。 除 了 租 
期 ，DHCP 服 务 器 最 终 确 认 中 ， 还 可 能 加 上 其 他 网 络 配 置信 息 ， 如 DNS 服务 器 地 址 、 网 络 出 
口 地 址 等 。 客 户 机 可 以 选择 接受 ， 也 可 以 拒绝 DHCP 服 务 器 的 "好意 ”， 自 行 设置 这 些 参 数 。 


DHCP 攻 击 


一 定 程度 上 说 ，DHCP 服 务 器 是 个 活 雷 锋 ， 为 网 络 上 的 其 他 设备 提供 公共 服务 ， 免 得 设备 之 间 
私自 打架 。 人 们 也 越 来 越 信赖 这 个 活 雷 锋 ， 只 管 接 上 网 线 、 连 上 Wifi， 让 DHCP 服 务 器 处 理 配 
置 之 类 的 杂事 。 无 形 中 ，DHCP 服 务 器 掌握 了 很 大 的 公共 权力 。 一 些 黑客 攻击 手法 开始 瞄准 
DHCP 服 务 器 。 


针对 DHCP 的 一 种 攻击 办 法 是 从 服务 器 那里 骗 IP 地 址 。 攻 击 者 的 电脑 可 以 不 断 发 出 DHCP 请 
求 ， 冒 充 成 新 入 网 的 客户 机 。 于 是 ，DHCP 服 务 器 的 地 址 池 被 耗 干 ， 无 法 分 配 地 址 给 后 来 的 用 
户 。 后 来 的 用 户 再 也 没 法 使 用 网 络 服务 。 攻 击 者 很 可 能 会 继续 下 连环 套 。 攻 击 者 占有 了 大 量 
IP 地 址 ， 可 以 装扮 成 新 的 DHCP 服 务 器 ， 把 自己 骗 来 的 I|P 地 址 分 配给 网 络 上 的 新 用 户 。 


等 等 ， 好 像 有 什么 不 对 攻击 者 搞 竣 一 台 DHCP 服 务 器 ， 就 为 了 过 一 下 cosplay 的 妆 ? 
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假扮 小 美 ， 很 容易 被 外 表 迷 惑 


当然 不 是 。DHCP 服 务 器 还 能 提供 其 他 网 络 设置 参数 。 攻 击 者 可 以 让 自己 成 为 DNS 服务 器 或 
者 网 络 出 口 。 于 是 ， 客 户 机 的 域名 解析 和 外 网 通信 ， 必 须 经 过 攻击 者 的 电脑 。 这 个 时 候 ， 攻 
击 者 的 权限 就 很 大 了 。 他 可 以 偷 听 通 信 、 伪 装 成 客户 机 、 假 扮 成 某 个 域名 的 网 站 。 比 如 说 ， 
攻击 者 就 可 以 自 改 域名 解析 ， 让 你 在 访问 www.cnblogs.com/vamei 时 ， 实 际 上 访问 的 是 攻击 
者 提供 的 一 个 网 页 。 当 你 在 这 个 网 页 上 输入 用 户 名 和 密码 时 ， 你 的 信息 就 完全 泄露 给 了 攻击 
者 。 

DHCP 攻 击 让 人 防不胜防 。DHCP 协 议 在 设计 中 并 没有 考虑 到 安全 性 的 问题 ， 所 以 很 难 从 软件 
上 杜绝 DHCP 攻 击 。 某 些 品 牌 的 交换 机 上 ， 可 以 指定 特定 端口 给 合法 的 DHCP 服 务 器 ， 以 免 其 
他 人 伪装 。 当 然 ， 最 重要 的 保护 方式 ， 还 是 防止 攻击 者 连 入 局 域 网 。 


~ 


结 


ba: 


4 


DHCP 服 务 器 可 以 动态 的 分 配 IP 地 址 ， 还 可 以 提供 其 他 网 络 设置 参数 。 客 户 机 和 服务 器 经 过 四 
步 来 完成 DHCP 通 信 。 
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协议 森林 17 我 和 你 的 悄悄 话 (SSL/TLS 协 议 ) 


作者 : Vamei 出 处 : http://www.cnblogs.com/vamei 转载 请 先 与 我 联系 。? 


TLS 名 为 传输 层 安 全 协议 (Transport Layer Protocol)， 这 个 协议 是 一 套 加 密 的 通信 协议 。 它 的 
前 身 是 SSL 协 议 ( 安 全 套 接 层 协议 ，Secure Sockets Layer)。 这 两 个 协议 的 工作 方式 类 似 ， 但 
ee We Wert eh 
中 实现 了 加 密 通 信 ， 让 通信 的 双方 可 以 安心 的 说 悄悄 话 。。 


加 答 ? 


SSL 协 议 的 基础 是 加 密 技 术 。 加 密 和 解密 是 自古 就 有 技术 了 。 比 如 说 古代 的 男女 偷偷 发 生 私 
情 ， 不 能 被 相互 之 间 有 血 海 深 仇 的 两 个 家 族 知 道 。 男 孩 问 女孩 要 不 要 一 起 私奔 。 We 
传 来 答复 ， 上 面 写 着 : 


K FQ 


男孩 拿 着 这 串 字 符 翻 来 尾 去 想 了 半天 ， 没 明白 女 孩 的 意思 ， 就 以 为 女孩 不 愿 放弃 优 滥 的 生活 
和 他 私奔 。 直 到 十 年 后 ， 男 孩 忽 然 灵 光一 闪 ， 发 现 如 果 把 每 个 字母 都 蔡 换 成 字母 表 上 提前 两 
个 的 字母 的 话 ， 这 三 个 字符 就 变 成 了 : 


| DO 


这 种 加 密 方法 是 将 原来 的 某 种 信息 按照 某 个 规律 打 乱 。 打 乱 的 方式 称 为 加 密 算 法 ， 而 打 乱 过 
程 中 的 参数 就 叫做 密 钥 (cipher code)。 上 面 女孩 的 加 密 方 式 是 把 原 字母 替换 为 字母 表 上 后 固定 
位 的 字母 。 而 密 钥 就 是 固定 的 位 数 2 了 。 发 出 信息 的 人 根据 密 钥 来 给 信息 加 密 ， 而 接收 信息 的 
人 利用 相同 的 密 钥 ， 来 给 信息 解密 。 就 好 像 一 个 带 锁 的 盒子 。 发 送信 息 的 人 将 信息 放 到 盒子 
里 ， 用 钥匙 锁 上 。 而 接受 信息 的 人 则 用 相同 的 铀 是 打开 。 加 密 和 解密 用 的 是 同一 个 密 钥 ， 这 
种 加 密 称 为 对 称 加 密 (symmetric encryption) 。 


如 果 一 对 一 的 话 ， 那 么 两 人 需要 交换 一 个 密 钥 。 理 论 上 ， 如 果 密 钥 绝对 安全 ， 而 且 加 密 算 法 
绝对 复杂 的 话 ， 对 称 加 密 是 很 难 破解 的 。 但 通信 双方 很 难 绝对 保证 密 铀 的 安全 。 一 旦 有 其 他 
人 窃取 到 密 铀 ， 那 么 所 有 通信 都 变 得 不 安全 了 。 特 别 在 一 对 多 的 话 ， 如 果 共 用 同一 套 密 钥 ， 
那么 某 一 方 通信 的 破解 就 意味 着 所 有 通信 的 破解 。 二 战 中 盟 军 的 情报 战 成 果 ， 很 多 都 来 自 于 
破获 这 种 对 称 加 密 的 密 钥 。 盟 军 破解 了 某 个 德国 特工 的 加 密 手 法 ， 那 么 也 就 了 解 到 纳粹 总 部 
的 加 密 手 法 了 。 
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二 战 中 德军 的 传奇 加 密 机 : Enigma 


对 称 加 密 的 薄弱 之 处 在 于 给 了 太 多 人 的 钥匙 。 如 果 换 一 种 思路 ， 只 给 特工 锁 ， 而 总 部 保有 铺 
是 ， 那 就 容易 了 。 特 工 将 信息 用 锁 锁 到 金 子 里 ， 谁 也 打 不 开 ， 除 非 到 总 部 用 唯一 的 一 把 钥匙 
打开 。 只 是 这 样 的 话 ， 特 工 每 次 出 门 都 要 带 上 许多 锁 ， 太 容易 被 识破 身份 了 。 总 部 老大 想 了 
想 ， 干 脆 就 把 造 锁 的 技术 公开 了 。 特 工 ， 或 者 任何 其 它 人 ， 可 以 就 地 取材 ， 按 照 图 纸 造 锁 ， 
但 无 法 根据 图 纸 造 出 钥匙 。 角 是 只 有 总 部 的 那 一 把 。 上 面 的 关键 是 锁 和 钥匙 工艺 不 同 。 知 首 


了 锁 ， 并 不 能 知道 钥匙 。 这 样 ， 总 部 可 以 将 “ 造 锁 " 的 方法 公布 给 所 有 用 户 。 每 个 用 户 可 以 用 锁 


来 加 密 自 己 的 信用 卡 信 息 。 即 使 被 别人 窃听 到 ， 也 不 用 担心 : 只 有 总 部 才 有 钥匙 呢 ! 非 对 称 
加 密 中 ， 给 所 有 人 用 的 锁 被 称 为 公 铀 (public key)， 总 部 自己 保留 的 钥匙 被 称 为 私 钥 (private 
key)。 这 样 一 种 钥匙 和 和 锁 分 离 的 加 密 算 法 就 叫做 非 对 称 加密 (asymmetric encryption)。 


非 对 称 加 窗 


对 称 加 密 的 原理 相对 比较 直观 ， 而 非 对 称 加 密 听 起 来 就 有 些 神奇 。 经 过 非 对 称 加 密 产 生 的 密 
文 ， 就 算 知 道 加 密 的 方法 ， 也 无 法 获知 原文 。 实 现 了 非 对 称 加 密 的 经 典 算法 是 RSA 算 法 。 它 
来 自 于 数论 与 计算 机 计数 的 奇妙 结合 。 我 们 从 下 面 的 情境 中 体验 一 下 RSA 算 法 的 妙 处 。 


我 是 潜伏 在 龙凤 大 酒楼 的 卧底 。 想 让 下 面 信息 以 加 密 的 方式 发 送 到 总 部 : 
A CHEF HIDE A BED 


局 子 藏 起 来 了 一 张 床 ! 这 是 如 此 的 重要 ， 需 要 立即 通知 总 部 。 千 万 重要 的 是 ， 不 能 让 反革命 
的 局 子 知道 。 


第 一 步 是 转 码 ， 也 就 是 将 英文 转换 成 某 个 对 应 的 数字 。 这 个 对 应 很 容易 建立 ， 比 如 : 


A B C D E F G H | 
1 2 3 4 5 6 7 8 9 


将 上 面 的 信息 转 码 ， 获 得 下 面 的 数字 序列 : 


A CHEF HIDE A BED 


1 3856 8945 1 254 


这 事 数 字 完 全 没有 什么 秘密 可 言 。 司 子 发 现 了 这 串 数 字 之 后 ， 很 容易 根据 数字 顺序 ， 对 应 字 
母 表 猜 出 来 。 


为 了 和 狂 独 的 厨子 斗智 斗 勇 ， a 数字 进一步 加 密 。 使 用 总 部 发 给 我 们 的 锁 ， 
个 数字 : 3 和 10。 我 们 分 为 两 步 处 理 。 是 求 乘 方 。 第 一 个 数字 是 3， 也 就 是 说 ， 总 
示 我 们 ， 求 上 面 数 字 串 的 3 次 方 : 


原 字 符 串 :?13338?5?3638?9?34?35?31?32?5?34 

三 次 乘 方 : 1 ?27 512 125 216 512 729 ?64 125 ? 1? 8 125 ?64 

第 二 步 是 求 余数 。 第 二 个 上 锁 的 数字 是 10， 将 上 面 每 个 三 次 乘 方 除 以 {10， 获 得 其 余数 : 
余数 : 1725629451854 


将 这 串 数 字 发 回 总 部 。 中 途 被 局 子 偷 看 到 ， 但 一 时 不 能 了 解 其 中 的 意思 。 如 果 还 是 像 刚 才 一 
样 对 应 字母 表 的 话 ， 信 息 是 : 


AGBEFBIDEAHED 
这 串 字母 完全 不 包含 正常 的 单词 。 


信息 到 了 总 部 。 总 部 开始 用 神奇 的 钥匙 来 解读 。 这 个 钥 是 是 3。 在 这 个 简单 的 粒子 里 ， 钥 是 不 
AL 但 这 只 是 巧合 。 复 杂 的 情况 下 很 容易 让 锁 和 钥 是 不 同 。 解 

过 程 也 是 两 步 。 第 一 步 求 钥匙 次 的 乘 方 ， 即 3 次 方 。 第 二 步 求 它们 除 以 10 ( 锁 之 一 ) 的 余 
a o 


加 密 信 息 :1?7?32?35?36?32?39?34?35?1?38?5?4 
三 次 乘 方 : 1343 ? 8 125 216 ? 8 729 ?64 125 ? 1512 125 ?64 (这 里 用 的 是 钥匙 的 “3”) 
除 十 得 余 :1?33?38?5?36?38?9?34?35?1?32?35?4 


正 是 我 们 发 送 的 信息 。 对 应 字母 表 ， 总 部 可 以 立即 知道 原来 的 信息 。 就 此 ， 我 们 简单 的 体验 
了 RSA 算 法 的 使 用 过 程 。 鉴 于 这 里 篇 幅 有 限 ， 这 里 不 再 详细 解释 RSA 算 法 的 原理 。 如 果 有 闪 
趣 ， 可 以 参考 我 的 另 一 篇 文章 :“ 不 给 力 啊 ， 老 湿 1”: RSA 加 密 与 破解 


SSL 协 议 


可 以 看 到 ， 非 对 称 加 密 从 安全 性 上 要 强 过 对 称 加 密 。 但 天 下 没有 免费 的 午餐 。 非 对 称 加 密 的 
运算 成 本 同样 也 比较 高 。 为 了 兼顾 效率 和 安全 ，SSL 协 议 同时 使 用 了 非 对 称 和 对 称 加 密 。 它 用 
对 称 加 密 算 法 来 加 密 信 息 本 身 。 但 对 于 安全 性 比较 脆弱 的 对 称 加 密 密 钥 ， 则 采用 非 对 称 加 密 


的 方式 来 传输 。 

SSL 协 议 分 为 客户 端 和 服务 器 端 。 通 信 的 核心 步骤 很 简单 : 

1. 双方 利用 明文 通信 的 方式 确立 使 用 的 加 密 算 法 。 
利用 非 对 称 算法 通信 ， 交 换 一 个 密 钥 。 

3. 该 密 钥 用 于 对 称 加 密 算 法 ， 加 密 接 下 来 的 通信 正文 。 


可 以 看 到 ，SSL 协 议 的 关键 是 用 一 个 非常 安全 的 方式 来 交换 一 个 对 称 密 钥 。 交 换 的 过 程 会 比 上 
面 的 描述 更 加 复杂 一 些 。 


1. 客户 发 起 请 求 时 ， 除 了 说 明 自 己 支持 的 非 对 称 加 密 算 法 ， 还 会 附加 一 个 客户 端 随机 数 (client 
random)。 


2. 服务 器 回复 请 求 时 ， 会 确定 非 对 称 加 密 算 法 和 哈 希 函数 ， 并 附 上 公 铀 。 此 外 ， 服 务 器 端 还 
会 在 此 次 通信 中 附加 一 个 服务 器 端 随机 数 (server random) 。 


3. 客户 端 会 产生 第 三 个 随机 数 (Premaster secret)， 然 后 利用 服务 器 确定 的 非 对 称 加 密 算法 和 
公 负 来 加 密 这 个 随机 数 ， 再 发 送 给 服务 器 端 。 


4. 客户 端 用 自己 的 私 钥 解密 第 三 个 随机 数 。 


4. 这 样 ， 客 户 端 和 服务 器 端 都 知道 了 三 个 随机 数 。 双 方 各 自用 商量 好 的 哈 希 函数 从 三 个 随机 
数 获得 对 称 加 密 的 密 钥 。 


即使 明文 通信 的 时 候 ， 某 些 信息 被 窃听 ， 但 第 三 步 的 非 对 称 加 密 通 信 部 分 可 以 保证 窃听 者 无 
法 完整 的 获得 三 个 随机 数 。 这 样 ， Ee a 的 密 钥 是 什么 。 这 样 ， 对 称 加 
te re 获得 了 。 为 了 进一步 安全 ， 服 务 器 的 公 钥 会 包含 在 一 个 数字 
证 书 中 发 送 给 客 这 样 ， 客 户 还 可 以 通过 数字 证 书 来 验证 服务 器 的 身份 ， 以 免 服务 器 本 身 
出 现 问 题 。? 


on a 
信 过 程 中 要 经 过 多 重 路 由 ， 很 容易 被 穷 听 。 经 过 SSL 协 议 加 密 的 信息 就 算 被 窃听 ， 也 只 能 被 通 
信 目 的 地 的 人 解读 ， 从 而 保证 了 信息 的 安全 。 所 以 ， 如 果 所 访问 er 没有 使 用 HTTPS 协 
议 ， 那 么 在 输入 银行 账号 和 密码 之 类 的 敏感 信息 时 ， 就 要 三 思 而 后 行 了 。 


Opera 9,10 
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Opera 11 Konqueror IE7,8 Safari (win) 


Browsers Varlous 


https lock positions 


Firefox 3,4 


! 





IE 5,6 


当 浏 览 器 出 现 锁 的 符号 时 ， 说 明 访 问 的 资源 使 用 了 HTTPS 通 信 


逆 克 (CIDR 与 NAT) 


IPv4 由 于 最 初 的 设计 原因 ， 长 度 只 有 32 位 ， 所 以 只 提供 了 大 约 40 亿 个 地 址 。 这 造成 了 IPv4 地 
址 的 耗 尽 危机 。 随 后 ，IPv6 被 设计 出 来 ， 并 可 以 提供 足够 多 的 IP 地 址 。 但 是 IPv4 与 IjPv6 并 不 
兼容 ，IPv4 向 IPv6 的 迁移 并 不 容易 。 一 些 技 术 ， 比 如 说 这 里 要 说 的 CIDR 和 NAT， 相 继 推广 。 
这 些 技 术 可 以 缓解 IPv4 的 稀缺 状态 ， 成 就 了 IPv4 一 时 的 逆 兢 。 


CIDR 


CIDR(Classless Inter Domain Routing) 改 进 了 传统 的 IPv4 地 址 分 类 。 传 统 的 IP 分 类 将 IP 地 址 
直接 对 应 为 默认 的 分 类 ， 从 而 将 Internet 分 割 为 网 络 。CIDR 在 路 由 表 中 增加 了 子 网 掩 码 
(subnet masking)， 从 而 可 以 更 细 分 网 络 。 利 用 CIDR， 我 们 可 以 灵活 的 将 某 个 范围 的 PP 地址 


分 配给 某 个 网 络 。 


IP 地 址 分 类 


在 IP 接 力 赛 中 ， 我 提 到 ，IP 地 址 可 以 分 为 如 下 几 类 : 


IP class From To Subnet Mask 
A 1.0.0.0 126.255.255.255 255.0.0.0 
128.0.0.0 191.255.255.255 255.255.0.0 
C 192.0.0.0 223.255.255.255 255.255.255.0 


这 是 最 初 的 IPv4 地 址 分 类 设计 。 一 个 IPv4 地 址 总 共有 32 位 ， 可 以 分 为 网 络 (network) 和 主机 
(host) 两 部 分 。 子 网 掩 码 (subnet mask) 是 用 于 表示 哪些 位 代表 了 网 络 部 分 。 比 如 如 下 subnet 
mask 255.0.0.0 的 二 进 制 表 示 为 : 

11111111 00000000 00000000 00000000 


它 的 前 八 位 为 1， 所 以 表示 |P 地 址 的 前 和 八 位 为 网 络 部 分 。 而 后 面 的 24 位 代 指 该 网 络 的 各 个 主 
机 。 一 个 人 类 网 络 可 以 有 224 台 主机 ， 也 就 是 16777216。 由 于 |Pv4 地 址 已 经 分 好 了 类 ， 所 以 当 
我 们 拿 到 一 个 IP 地 址 ， 我 们 就 可 以 通过 上 面 查 到 它 的 子 网 掩 码 。(B 类 ，216; C 类 ，28) 


传统 路 由 表 


IP 分 类 的 方便 了 IP 包 的 接力 。IP 包 到 达 某 个 路 由 器 后 ， 会 根据 该 路 由 器 的 路 由 表 (routing 
table)， 来 决定 接力 的 下 一 站 。 一 个 传统 的 路 由 表 看 起 来 是 这 样 的 : 


Destination Gateway lface 


199.165.145.0 0.0.0.0 eth0 
199.165.146.0 0.0.0.0 eth1 
0.0.0.0 199.165.146.8 eth1 


该 路 由 表 代表 的 网 络 拓扑 如 下 : 


199.165.145 199.165.146 
We To Internet 
eth0 eth1 


由 于 IP 分 类 ， 我 们 不 需要 记录 subnet mask。 当 我 们 要 前 往 199.165.146.17 时 ， 我 们 已 经 知道 
这 台 主 机 位 于 一 个 C 类 地 址 ， 所 以 它 的 子 网 掩 码 是 255.255.255.0， 也 就 是 说 199.165.146 代 表 
了 网 络 ，17 代 表 了 主机 。 


CIDR 路 由 表 


然而 ， 由 于 默认 分 类 ， 造 成 了 网 络 只 能 按照 A、B、C 的 方式 存在 。 假 设 一 个 网 络 ( 比 如 MIT 的 
网 络 ) 分 配 了 一 个 A 类 地 址 ， 那 么 该 网 络 将 容许 16777216 个 主机 。 如 果 该 网 络 无 法 用 完 这 些 IP 
地 址 ， 这 些 |P 地 址 将 无 法 被 其 他 网 络 使 用 。 再 比如 上 面 的 网 络 ，199.165.145 必 须 作 为 一 个 整 
个 的 网 络 存在 。 如 果 我 们 只 有 10 台 主机 ， 那 么 将 会 有 200 多 个 IP 地 址 被 浪费 。CIDR 的 本 质 是 
在 路 由 表 中 加 入 子 网 掩 码 ， 并 根据 该 列 信 息 对 网 络 进行 分 割 ， 而 不 是 根据 默认 的 A，B，C 进 
行 分 割 。 比 如 : 


Destination Gateway Genmask lface 
199.165.145.254 0.0.0.0 255.255.255.254 eth2 
199.165.145.0 0.0.0.0 255.255.255.0 eth0 
199.165.146.0 0.0.0.0 255.255.255.0 eth1 
0.0.0.0 199.165.146.8 0.0.0.0 eth1 


根据 路 由 表 的 第 一 条 记录 ，199.165.145.254 (IP address) : 11000111 10100101 10010001 
11111110 255.255.255.254 (subnet mask): 11111111 11111111 11111111 11111110 (31 个 1，1 
个 0) 


通过 子 网 掩 码 可 以 知道 ， 前 31 位 表示 网 络 ， 最 后 一 位 表示 主机 。 子 网 掩 码 总 是 有 连续 多 个 1 组 
成 ， 比 如 上 面 的 31 个 1。 所 以 也 可 记 为 199.165.145.254/31， 来 同时 表示 IP 地 址 和 子 网 掩 码 。 


这 里 也 可 以 使 用 ipcalc 命令 快速 计算 : 


$ ipcalc 199.165.145.254/31 


Address: 199.165.145.254 11000111.10100101.10010001.1111111 0 
Netmask: 255.255.255.254 = 31 11111111.11111111.11111111.1111111 0 
Wildcard: 0.0.0.1 O00000000.00000000.00000000.0000000 1 


=> 


Network: 199.165.145.254/31 11000111.10100101.10010001.1111111 0 


HostMin: 199.165.145.254 11000111.10100101.10010001.1111111 0 
HostMax: 199.165.145.255 11000111.10100101.10010001.1111111 1 
Hosts/Net: 2 Class C, PtP Link RFC 3021 


路 由 器 将 原来 的 199.165.145 网 络 中 的 一 部 分 分 割 出 来 。 这 一 网 络 可 以 容纳 两 台电 脑 ， 也 就 是 
199.165.145.254 和 199.165.145.255。 这 个 网 络 对 应 网 卡 是 eth2。 当 有 IP 包 通 向 这 两 个 I|P 地 址 
时 ， 会 前 往 eth2， 而 不 是 eth0 。 


网 络 拓扑 如 下 : 


199.165.145.254 EE | 199.165.145.255 


[| wp | 
0),, 


eth2 


eth0 ia ethl 


利用 CIDR， 我 们 可 以 将 IP 地 址 根据 需要 进行 分 写 


|， 从 而 不 浪费 IP 地 址 。 


NAT 


CIDR 虽 然 可 以 更 加 节约 IP 地 址 ， 但 它 并 不 能 创造 新 的 I|P 地 址 。IP 地 址 的 耗 尽 危机 并 不 能 因此 
得 到 解决 。 我 们 来 看 IPv4 的 第 二 克 ，NAT(Network Address Translation)。 


理论 上 ， 每 个 IP 地 址 代表 了 Internet 上 的 一 个 设备 。 但 有 一 些 IP 地 址 被 保留 ， 用 于 一 些 特殊 用 
途 。 下 面 三 段 |P 地 址 被 保留 用 作 私有 IP 地 址 : 
From To 
10.0.0.0 10.255.255.255 
172.16.0.0 172.31.255.255 
192.168.0.0 192.168.255.255 


私有 IP 地 址 只 用 于 局 域 网 内 部 。 理 论 上 ， 我 们 不 应 该 在 互联 网 上 看 到 来 自 或 者 发 往 私 有 IP 地 址 
的 IP 包 。 与 私有 IP 地 址 对 应 的 是 全 球 IP 地 址 (global IP address) 。 


NAT 是 为 私有 网 络 (private network) 服 务 的 。 该 网 eh 的 主机 使 用 私有 IP 地 址 。 当 私有 网 pa 
部 主机 和 外 部 Internet 通 信 时 ， 网 关 (gateway) 路 由 器 负责 将 私有 IP 地 址 转换 为 全 球 IP 地 址 ， 

个 地 址 转换 过 程 就 是 Network Address Translation 。 网 ee 的 NAT 功 能 。 最 极端 情 i ， 
我 们 可 以 只 分 配 一 个 全 球 IP 地 址 给 网 关 路 由 器 ， 而 私有 网 络 中 的 设备 都 使 用 私有 IP 地 址 。 由 于 
私有 IP 地 址 可 以 在 不 同 私有 网 络 中 重复 使 用 ， 所 以 就 大 大 减 小 了 设备 对 IP 地 址 的 需求 。 


基础 NAT 


NAT 的 一 种 为 基础 NAT， 也 成 为 一 对 一 (one-to-one)NAT。 在 基础 NAT 下 ， 网 关 路 由 器 一 一 转 
换 一 个 外 部 IP 地 址 和 一 个 私有 IP 地 址 。 网 关 路 由 器 保存 有 IP 的 NAT 对 应 关系 ， 比 如 : 


Internet 3 Private Network 


199.165.145.1 / 10.0.0.1 
了 165.145.5 


199.165.145.17 10.0.0.3 





上 面 网 络 中 ， 当 有 IP 包 要 前 往 199.165.145.1 时 ， 网 关 路 由 器 会 将 目的 地 改写 为 10.0.0.1， 并 
接力 给 私有 网 络 中 的 10.0.0.1 的 电脑 。 同 样 ， 当 10.0.0.1 的 电脑 向 Internet 发 送 IP 包 时 ， 它 的 发 
送 地 为 10.0.0.1°。 在 到 达 网 关 路 由 器 时 ， 会 将 发 送 地 更 改 为 199.165.145.1°。 此 外 ，IP 头 部 的 
checksum ， 以 及 更 高 层 协 议 ( 比 如 UDP 和 TCP) 中 的 校 验 IP 的 checksum 也 会 更 改 。 


基础 NAT 尽 管 是 一 对 一 转换 IP 地 址 ， 它 还 是 可 以 减 小 内 部 网 络 对 |P 地 址 的 需求 。 通 常 来 说 ,一 
个 局 域 网 中 只 有 少数 的 设备 处 于 开机 状态 ， 并 不 需要 给 每 个 设备 对 应 一 个 全 球 IP 地 址 。 NAT 可 
以 动态 的 管理 全 球 IP 地 址 ， 并 将 全 球 IP 地 址 对 应 到 开机 设备 ， 从 而 减 小 内 部 网 络 对 IP 地 址 的 需 


NAPT 


NAT 还 有 一 种 ， 被 成 为 NAPT (Network Address and Port Translation)。 在 基础 NAT 中 ， 高 层 
协议 的 端口 号 并 不 会 改动 。NAPTT，IP 地 址 和 端口 号 可 能 同时 改动 。 


我 们 在 UDP 和 TCP 中 提 到 端口 (port) 的 概念 。 在 建立 UDP 或 者 TCP 通 信 时 ， 我 们 实际 上 是 用 
IP:Port 来 代表 通信 的 一 端 (正如 打 电 话 时 主机 :分 机 号 一 样 )。 ne 人 器 处 建立 两 
个 通信 通道 ， 一 个 通 往 内 部 网 络 ， 一 个 通 往外 部 网 络 ， 然 后 将 网 关 处 的 通道 端口 连接 ， 从 而 

让 内 部 和 外 部 通信 。 比 如 : 


Intemet : Private Network 
cj ”a 





199.165.145.1:8888 : Ps 


10.0.0.1:8080 


asia 165.145.1:8889 


10.0.0.3:6000 


199.165.145.1:8080 


我 们 看 到 ， 通 往 IP 199.165.145.1 建 立 了 三 个 端口 的 连接 : 8888, 8889 和 8080。 它 们 分 别 在 
NAPT 处 改 为 通 往 10.0.0.1:80, 10.0.0.1:8080 和 10.0.0.3:6000。NAPT 记 录 有 外 部 IP: 端 口 和 内 
部 IP: 端 口 的 一 一 对 应 关系 。 在 上 P 包 经 过 时 ， 网 关 路 由 器 会 更 改 |P 地 址 ， 端 口号 以 及 相关 的 
checksum ° 


利用 NAPT 我 们 可 以 使 用 一 个 (或 者 多 个 但 少量 的 ) 外 部 IP 和 大 量 的 端口 号 ， 来 对 应 多 个 内 部 | 
以 及 相应 的 端口 号 ， 从 而 大 大 减 小 了 对 全 球 |P 地 址 的 需求 。 


& NAPT : 多 重 影 分 身 术 


无 论 是 基础 NAT 还 是 NAPT， 它 们 的 设置 都 比较 复杂 ， 并 且 从 本 质 上 违背 了 互联 网 最 初 的 设计 
理念 。 但 由 于 IPv4 的 使 用 惯性 ，NAT 还 是 被 广泛 推广 。 由 于 NAT 所 处 的 网 关 服 务 器 是 理想 的 设 
置 防火 墙 的 位 置 ，NAT 还 往往 和 防火 墙 共 同 建设 ， 以 提高 私有 网 络 的 安全 性 。 


区 结 


Ct 


/ 


即使 是 CIDR 和 NAT 广 泛 使 用 ，IPv4 还 是 在 不 可 避免 的 耗 尺 。|IPv6 正 在 加 紧 部 署 。 但 上 述 的 两 
种 技术 ，CIDR 和 NAT 在 IPv6 中 同样 被 采用 ， 所 以 了 解 它们 依然 是 有 意义 的 。 


Mac OSX 网 络 诊断 命令 


作者 : Vamei 出 处 : http://www.cnblogs.com/Vamei 欢迎 转载 ， 也 请 保留 这 段 声明 。 谢 谢 ! 


下 面 是 一 些 Mac OSX 下 常用 的 网 络 诊断 命令 。 它 们 能 帮助 我 们 发 现 网 络 问题 。 文 中 提 到 的 协 
议和 网 络 通信 原理 ， 可 参考 协议 森林 。 


有 些 工具 ， 如 arping, arp-scan， 需 要 借助 HomeBrew 安 装 。 
基本 工具 
网 络 诊断 的 第 一 步 ， 是 了 解 自 己 的 设备 ， 比 如 有 哪些 接口 ，IP 地 址 都 是 什么 。 


ifconfig 
显示 网 络 接口 (interface) 人 信息。 如 接口 名 称 ， 接 口 类 型 ， 接 口 的 IP 地址 ， 硬 件 的 MAC 地 址 等 。 


ARP 
ARP 协 议 用 在 局 域 网 (LAN) 内 部 。 借 用 ARP 协 议 ， 设 备 可 以 知道 同一 局 域 网 内 的 |P-MAC 对 应 
关系 。 当 我 们 访问 一 个 本 地 IP 地 址 时 ， 设 备 根据 该 对 应 关系 ， 与 对 应 的 MAC 地 址 通信 。 通 过 
ARP 工 具 ， 我 们 可 以 知道 局 域 网 内 的 通信 和 是否 正 常 。 
arp -a 
显示 本 地 存储 的 IP-MAC 对 应 关系 
sudo arping -I eth© 192.168.1.1 
经 eth0 接 口 ， 发 送 ARP 请 求 ， 查 询 |P 为 192.168.1.1 设 备 的 MAC 地 址 
sudo arp-scan -1 
查询 整个 局 域 网 内 的 所 有 IP 地 址 的 对 应 MAC 地 址 
sudo tcpdump -i en0 arp 


监听 en0 接 口 的 arp 协 议 通信 


网 络 层 

网 络 层 是 一 个 广 域 的 互联 网 ， 互 联网 上 的 设备 用 IP 地 址 识别 。ping 是 向 某 个 上 P 地 址 发 送 ICMP 
协议 的 ECHO_REQUEST 请 求 。 收 到 该 请 求 的 设备 ， 将 返回 ICMP 回 复 。 如 果 ping 到 某 个 IP 地 
址 ， 那 么 说 明 该 IP 地 址 的 设备 可 以 经 网 络 层 顺利 到 达 。 


ping 192.168.1.1 


向 IP 地 址 192.168.1.255 发 送 ICMP 请 求 。 如 果 该 地 址 的 ICMP 没 有 被 禁用 ， 那 么 在 该 网 上 的 设 
备 将 回复 。 


ping 192.168.1.255 


向 广播 (broadcast) 地 址 192.168.1.255 发 送 ICMP 请 求 。 如 果 ICMP 没 有 被 禁用 ， 那 么 在 该 网 上 
的 设备 将 回复 。 


需要 注意 的 是 ， 许 多 设备 会 禁用 ICMP。 如 果 ping 不 到 一 个 设备 ， 并 不 一 定 是 网 络 层 故障 。 


如 果 两 个 设备 有 相同 的 I|P 地 址 ， 将 导致 IP 冲 突 。 许 多 网 络 中 是 由 DHCP 协 议 自动 分 配 IP 地 址 
的 ， 这 样 可 以 极 大 的 减少 IP 冲 突 的 可 能 性 。DHCP 服 务 器 与 设备 达成 协议 ， 设 备 将 在 一 定时 间 
内 占据 某 个 IP 地 址 ， 而 DHCP 服 务 器 不 再 把 该 IP 地 址 分 配给 别人 。 


sudo ipconfig set en0 DHCP 


更 新 DHCP 租 约 。 设 备 将 释放 IP 地址， 再 从 DHCP 服 务 器 重新 获得 |P 地 址 。 
sudo ipconfig set eng0 INFORM 192.168.0.120 
将 接口 en0 设 定 为 静态 |P 地 址 。 


路 由 


局 域 网 通过 路 由 器 ， 接 入 广 域 的 互联 网 。 互 联网 上 的 通信 往往 要 经 过 多 个 路 由 器 接力 。 途 中 
路 由 器 的 故障 ， 可 能 导致 互联 网 访问 异常 。 


netstat -nr 


示 路 由 表 。 从 路 由 表 中 ， 可 以 找到 网 关 (Gateway)。 网 关 是 通 向 更 加 广域网 络 的 出 口 。 


traceroute?74.125.128 .99 


追踪 到 达 IP 目 的 地 的 全 程 路 由 。 


traceroute -I?374.125 .128 .99 


通过 ICMP 协 议 ， 追 踪 路 由 。|ICMP 协 议 经 常会 被 禁用 ， 所 以 会 返回 "的 字符 囊 。 


sudo traceroute -T -p 80?74.125.128 .99 


通过 TCP 协 议 ， 经 80 端 口 ， 追 踪 路 由 。TCP 协 议 的 默认 端口 80 很 少 会 被 禁用 。 

网 络 监听 

tcpdump 是 一 款 网 络 抓 包 工具 。 它 可 以 监听 网 络 接口 不 同 层 的 通信 ， 并 过 滤 出 特定 的 内 容 ， 比 
如 特定 协议 、 特 定 端口 等 等 。 我 们 上 面 已 经 使 用 tcpdump 监 听 了 ARP 协 议 通信 。 这 里 我 们 来 看 


更 多 的 监听 方式 。 


sudo tcpdump -i en0 


监听 en0 接 口 的 所 有 通信 


豆 


Sudo tcpdump -A -i en0? 


用 ASCII 显 示 en0 接 口 的 通信 内 容 


sudo tcpdump -i en0 "port 8080' 


显示 en0 接 口 的 8080 端 口 的 通信 


豆 


sudo tcpdump -i eth1 src 192.168.1.200 


显示 eth1 接 口 ， 来 自 192.168.1.200 的 通信 


豆 


sudo tcpdump -i ethi1 dst 192.168.1.101 and port 80 


显示 eth1 接 口 80 端 口 ， 目 的 地 为 192.168.1.101 的 通信 


豆 


sudo tcpdump -w record.pcap -i lo0 


将 lo0 接 口 的 通信 存 入 文件 record.pcap 


域名 解析 
DNS 是 在 域名 和 |IP 之 间 进 行 翻译 。DNS 故 障 会 导致 我 们 无 法 通过 域名 访问 某 个 网 址 。 


host www.sina.com.cn 


DNS 域 名 解析 。 返 回 域名 对 应 的 IP 地 址 


中 英文 术语 对 照 表 


以 下 术语 按 出 现 顺序 排列 


协议 : Protocol 

摩尔 斯 码 : Morse Code 

物理 层 : Physical Layer 

连接 层 : Link Layer 

帧 : Frame 

收 信 地 址 : Source 

送信 地 址 : Destination 

校 验 序列 : Frame Check Sequence 
数据 : Payload 

类 型 : Type 

以 大 网 : Ethernet 

网 络 层 : Network Layer 

路 由 器 : Router 

网 卡 : Network Interface Controller 
路 由 : Routing 

传输 层 : Transport Layer 

端口 号 : Port Number 

应 用 层 : Application Layer 

封装 : Encapsulation 

以 大 网 : Ethernet 

序言 : Preamble 

时 钟 复原 : Recover Clock 
起 始 信号 : Start Frame Delimiter 
目的 地 : Destination 

发 出 地 : Source 

校 验 序列 : Frame Check Sequence 
循环 宛 余 校 验 : Cyclic Redundancy Check 
集线器 : Hub 

交换 器 : Switch 

冲突 检测 : Collision Detection 

互联 网 协议 : Internet Protocol 数据 包 : Datagram 
套 接 字 : Socket 

头 部 : Header 

子 网 掩 码 : Subnet Mask 

路 由 表 : Routing Table 地 址 解析 协议 : Address Resolution Protocol 


路 由 信息 协议 : Routing Information Protocol 

路 由 器 数目 : Hop Number 

邻居 发 现 协 议 : Neighbor Discovery Protocol 

自治 系统 : Autonomous System 

边界 网 关 协 议 : Border Gateway Protocol 

互联 网 名 称 与 数字 地 址 分 配 机 构 : Internet Corporation for Assigned Names and Numbers 
互联 网 号 码 分 配 局 : Internet Assigned Numbers Authority 
区 域 互 联网 注册 管理 机 构 : Regional Internet Registries 
网 路 服务 提供 商 : Internet Service Provider 

专用 地 址 ;: Special Use Address 

版 本 : Version 

存活 时 间 : Time to Live 

服务 类 型 : Type of Service 

差异 化 服务 领域 : Differentiated Service Field 

显 式 拥塞 通知 : Explicit Congestion Notification 

选项 : Option 

首部 长 度 : Internet Header Length 

总 长 度 : Total Length 

数据 长 度 : Payload Length 

延迟 : Latency 

碎片 化 : Fragmentation 

重新 组 合 : Reassembly 

最 大 传输 单元 : Maximum Transportation Unit 

流标 签 : Flow Label 

不 可 靠 的 : Unreliable 

顺序 : Order 

反 码 和 : One's Complement Sum 

互联 网 控制 消息 协议 : Internet Control Message Protocol 
着 误 : Error 

回音 : Echo 

源头 冷却 : Source Quench 

目的 地 无 法 到 达 : Destination Unreachable 

超时 : Time Exceeded 

重新 定向 : Redirect 

拒绝 服务 : Denial of Service 

用 户 数 据 报 协议 : User Datagram Protocol 

出 发 端口 : Source Port 

目的 地 端口 : Destination Port 

传输 控制 协议 : Transportation Control Protocol 

文本 流 : Byte Stream 


片段 : Segment 

序列 号 : Sequence Number 

乱 序 : Out of Order 

确认 : Acknowledgement 

重复 发 送 : Retransmission 

闲置 : Idle 

骨 窗 : Sliding Window 

连接 : Connection 

双 工 : Duplex 

同步 序列 编号 : Synchronize Sequence Number 
三 路 握手 : Three-Way Handshaking 

四 次 握手 : Four-Way Handshaking 

半 双 工 : Half-Duplex 

最 大 存活 时 间 : Maximum Segment Lifetime 
系 计 确 认 : Accumulative Acknowledgement 
空 穴 : Hole 

量 控制 : Flow Control 

死 锁 : Deadlock 

窗口 探测 : Window Probe 

白狐 窗口 综合 症 : Silly Window Syndrome 
重新 发 送 超 时 时 间 : Retransmission Timeout 
往返 时 间 : Round Trip Time 

采样 往返 时 间 : Sampling Round Trip Time 
快速 重新 发 送 : Fast Retransmission 

堵塞 崩溃 : Congestion Collapse 

堵塞 控制 : Congestion Control 

堵塞 窗口 : Congestion Window 

慢 启 动 : Slow Start 

规避: Congestion Avoidance 


| 


深 
漳 


http://book.douban.com/doulist/1626951/ 


以 及 其 它 来 自 网 路 的 资料 。 


